音色克隆 #65

6drf21e · 2024-06-29T03:16:47Z

6drf21e
Jun 29, 2024
Maintainer

起因

看到 @hoveychen 2noise/ChatTTS#369 的克隆项目，测试效果不错而且速度极快。

遂推测可能使用的简单的映射转换。正好 https://github.com/6drf21e/ChatTTS_Speaker 项目中使用通义实验室 ERes2NetV2 说话人识别模型测试留有几千个声纹嵌入和ChatTTS speaker文件。

测试1

ERes2NetV2维度是196 ，ChatTTS speaker 是768维。

做了一个简单的映射神经网络：

class SpeakerEmbeddingConverterV63(nn.Module):
    def __init__(self, input_dim=192, output_dim=768):
        super(SpeakerEmbeddingConverterV63, self).__init__()
        self.fc1 = nn.Linear(input_dim, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, output_dim)
        self.relu = nn.ReLU()

loss = MSELoss()

使用 6K 条数据对训练（训练集5K 验证集1K），训练几下就of，测试的效果也比较差。

经 @hoveychen 提醒训练数据量太少，遂增加数据到2万对。

测试2

class SpeakerEmbeddingConverter(nn.Module):
    def __init__(self, input_dim=192, output_dim=768):
        super(SpeakerEmbeddingConverter, self).__init__()
        self.fc1 = nn.Linear(input_dim, 1024)
        self.fc2 = nn.Linear(1024, 1024)
        self.fc3 = nn.Linear(1024, output_dim)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(0.3)

loss = MSELoss()

这次测试增加了参数，加入 Dropout 0.3，训练数据集1.8万、验证2K 。另外为了能评估实际效果加入了后续的评估流程。（见下图 xy写反了）

测试效果比初次有一定提升，但是反向推理的音色效果还是不太理想（个人感觉 0.6 以上的才有点相似 0.7 以上比较相似）

一些测试效果（筛选比较好的）

原

id00901-speech-01-014.mp4

Clone

id00901-speech-01-014.wav-sv.mp4

原

id00924-speech-06-017.mp4

Clone

id00924-speech-06-017.wav-sv.mp4

测试发现：1）真人音频相对较好，游戏动漫等夸张音色效果很差 2）方言效果差 3）老年音色、儿童音色效果差。

抛砖引玉

训练纯新手，希望大家指出问题，多多讨论。

再次感谢 @hoveychen 的无私分享。

@hoveychen 的Demo页面（效果更好）：
http://region-9.autodl.pro:41137/

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

音色克隆 #65

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

音色克隆 #65

Uh oh!

Uh oh!

6drf21e Jun 29, 2024 Maintainer

起因

测试1

测试2

一些测试效果（筛选比较好的）

抛砖引玉

Replies: 0 comments

6drf21e
Jun 29, 2024
Maintainer