音视频语音提取任务，似乎默认都是各个角色都在说话的，但实际场景有可能目标说话人是没有在说话的

使用AV_MossFormer2_TSE_16K 音视频语音提取模型，假如视频中有A、B两个说话人，其中A一直没有说话，B在说话，分离A、B的结果都是B的声音，这个该怎么解决？算法如果不能分清的话，有什么工程上可以优化兜底的方案不？