Skip to content

音视频语音提取任务,似乎默认都是各个角色都在说话的,但实际场景有可能目标说话人是没有在说话的 #138

@wangydong

Description

@wangydong

使用AV_MossFormer2_TSE_16K 音视频语音提取模型,假如视频中有A、B两个说话人,其中A一直没有说话,B在说话,分离A、B的结果都是B的声音,这个该怎么解决?算法如果不能分清的话,有什么工程上可以优化兜底的方案不?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions