You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
起因
看到 @hoveychen 2noise/ChatTTS#369 的克隆项目,测试效果不错而且速度极快。
遂推测可能使用的简单的映射转换。 正好 https://github.com/6drf21e/ChatTTS_Speaker 项目中使用通义实验室 ERes2NetV2 说话人识别模型 测试留有几千个 声纹嵌入和ChatTTS speaker文件。
测试1
ERes2NetV2维度是196 ,ChatTTS speaker 是768维。
做了一个简单的映射神经网络:
loss = MSELoss()
使用 6K 条数据对训练(训练集5K 验证集1K),训练几下就of,测试的效果也比较差。
经 @hoveychen 提醒训练数据量太少,遂增加数据到2万对。
测试2
loss = MSELoss()
这次测试增加了参数,加入 Dropout 0.3,训练数据集1.8万、验证2K 。 另外为了能评估实际效果加入了后续的评估流程。(见下图 xy写反了)
测试效果比初次有一定提升,但是反向推理的音色效果还是不太理想(个人感觉 0.6 以上的才有点相似 0.7 以上比较相似)
一些测试效果(筛选比较好的)
原
id00901-speech-01-014.mp4
Clone
id00901-speech-01-014.wav-sv.mp4
原
id00924-speech-06-017.mp4
Clone
id00924-speech-06-017.wav-sv.mp4
测试发现:1)真人音频相对较好,游戏动漫等夸张音色效果很差 2)方言效果差 3)老年音色、儿童音色效果差。
抛砖引玉
训练纯新手 ,希望大家指出问题,多多讨论。
再次感谢 @hoveychen 的无私分享。
@hoveychen 的Demo页面(效果更好):
http://region-9.autodl.pro:41137/
Beta Was this translation helpful? Give feedback.
All reactions