🎉 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS #2492
Replies: 16 comments 37 replies
-
我们目前的中英文混合是用 4 个开源数据进行混合可以实现音色和语言解耦,如果只用 CSMSC 和 LJSpeech 确实音色无法解耦,我们也实验过在 CSMSC + LJSpeech + 1000 条的同一个说话人中英文混合语料训练,也能达到解耦,得到的结论是:
|
Beta Was this translation helpful? Give feedback.
-
有开源方言可直接调用的接口吗? |
Beta Was this translation helpful? Give feedback.
-
@yazone 大佬你好,卡通音色和方言大概用了多少数量的数据啊?另外方言这块例如粤语的声母韵母体系以及MFA使用的是普通话的吗? |
Beta Was this translation helpful? Give feedback.
-
微调后的样例: 3_2.mp4星瞳:(850句) xtdcs.mp4唐国强:(45句) 4.mp4 |
Beta Was this translation helpful? Give feedback.
-
您好,请问有具体的方法(做法)介绍嘛?在音素建模上中英文是怎么处理的呢? |
Beta Was this translation helpful? Give feedback.
-
想问一下大家的卡通人物、明星和不同方言的数据都是从哪里获取的呢? |
Beta Was this translation helpful? Give feedback.
-
想问一下,这个方案,看到的栗子都中英混合的,串音确实没有了。但是有试过纯英文,或者纯中文的吗,会串音吗?例如纯英文的,还是用LJSpeech那把声音。 |
Beta Was this translation helpful? Give feedback.
-
弱弱的问一句,上面的蜡笔小新的音色,有能使用的finetune后的model么 |
Beta Was this translation helpful? Give feedback.
-
@yt605155624 请问加入多speaker的情感语料(离散情感:开心、伤心、中性、厌恶)可以实现,多语言多speaker的情感解耦吗 |
Beta Was this translation helpful? Give feedback.
-
请问下,单发音人方式的中英混合TTS是用的哪个模型呢?也是需要用相关的语料fine-tune吗 |
Beta Was this translation helpful? Give feedback.
-
基于PaddleSpeech/examples/other/tts_finetune /tts3/的readme,在中英混合模型上,如果从BZNSYP中选出来3k条语音微调am模型,loss可以下降到0.7左右,且用微调模型合成语音,声音比较清晰,同样用aishell3的数据集的某个人的声音的多条数据微调,推理模型合成的声音也很清晰,没有沙沙的声音; |
Beta Was this translation helpful? Give feedback.
-
请问下方言是怎么做到的? |
Beta Was this translation helpful? Give feedback.
-
大佬们,请问怎么改源码,可以支持中英文混合模型tts streaming? |
Beta Was this translation helpful? Give feedback.
-
大佬,你训练的方言TTS考虑开源吗? |
Beta Was this translation helpful? Give feedback.
-
怎么使用这个卡通模型呢? |
Beta Was this translation helpful? Give feedback.
-
hello,大佬,请问你这个tts是G2P based吗?请问东北话这种方言的g2p要怎么做呢? |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
实现单模型TTS中英文发音初步尝试了3种方案:单发音人方式、多发音人语料混合方式、finetune方式。
示例句子:
(一)单发音人方式(有数据才行!)
使用同一发音人中文、英文语料,这种方式效果最佳,听听效果:
中英文女:
default.mp4
中英文男:
default.mp4
(二)多发音人语料混合方式(音色串了!)
有开源数据中文baker、英文ljspeech数据,将数据混合成单发音人训练出一个模型,能听出一句话中文是baker、英文是ljspecch两种音色,我想音色差别不大的时候可以选用这种方式,听听效果:
ZH-EN-001_Baker_AND_LJSpeech.mp4
(三)finetune方式(音色一致了!)
在第一种中英文预训练模型上进行finetune,实现特色语音、动漫语音、方言,效果如下:
特色普通话
Baker说中英文:
bake.mp4
抖音鸡汤女说中英文:
default.mp4
动漫
蜡笔小新说中英文:
default.mp4
海绵宝宝说中英文:
default.mp4
方言
东北话:
-.mp4
广西话:
-.mp4
河南话:
-.mp4
四川话:
-.mp4
天津话:
-.mp4
粤语:
default.mp4
后续是否可以在第二种方案的模型上进行finetune达到好的效果再进行验证,这样就不需要单发音人的中英文预训练模型了,只需要开源数据就OK了。
×××××××××××PaddleTTS实现起来还是很方便的,感谢各位大佬...××××××××××
Beta Was this translation helpful? Give feedback.
All reactions