🎉 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS #2492

yazone · 2022-09-30T08:02:42Z

yazone
Sep 30, 2022

实现单模型TTS中英文发音初步尝试了3种方案：单发音人方式、多发音人语料混合方式、finetune方式。

示例句子：

大家好，我是parrot虚拟老师，我们来读一首诗，我与春风皆过客， I and the spring breeze are passing by,你携秋水揽星河， you take the autumn water to take the galaxy。

（一）单发音人方式（有数据才行！）

使用同一发音人中文、英文语料，这种方式效果最佳，听听效果：

中英文女：

default.mp4

中英文男：

default.mp4

（二）多发音人语料混合方式（音色串了！）

有开源数据中文baker、英文ljspeech数据，将数据混合成单发音人训练出一个模型，能听出一句话中文是baker、英文是ljspecch两种音色，我想音色差别不大的时候可以选用这种方式，听听效果：

ZH-EN-001_Baker_AND_LJSpeech.mp4

（三）finetune方式（音色一致了！）

在第一种中英文预训练模型上进行finetune，实现特色语音、动漫语音、方言，效果如下：

特色普通话

Baker说中英文：

bake.mp4

抖音鸡汤女说中英文：

default.mp4

动漫

蜡笔小新说中英文：

default.mp4

海绵宝宝说中英文：

default.mp4

方言

东北话：

-.mp4

广西话：

-.mp4

河南话：

-.mp4

四川话：

-.mp4

天津话：

-.mp4

粤语：

default.mp4

后续是否可以在第二种方案的模型上进行finetune达到好的效果再进行验证，这样就不需要单发音人的中英文预训练模型了，只需要开源数据就OK了。

×××××××××××PaddleTTS实现起来还是很方便的，感谢各位大佬...××××××××××

yt605155624 · 2022-09-30T08:21:24Z

yt605155624
Sep 30, 2022
Collaborator

（二）多发音人语料混合方式（音色串了！）

我们目前的中英文混合是用 4 个开源数据进行混合可以实现音色和语言解耦，如果只用 CSMSC 和 LJSpeech 确实音色无法解耦，我们也实验过在 CSMSC + LJSpeech + 1000 条的同一个说话人中英文混合语料训练，也能达到解耦，得到的结论是：

CSMSC + LJSpeech 训练（但是我们不是合成单发音人，还是用 2 个 spk_id），中文音素只见过 CSMSC 的，英文音素只见过 LJSpeech 的所以无法解耦
再加一个说话人（这个说话人是中英文混合的，单语的没试过），就能解耦
CSMSC + LJSpeech + AISHELL3 + VCTK 可以解耦（我们目前开源的方案）

2 replies

janelu9 Oct 12, 2022

有开源方言可直接调用的接口吗？

lancelee98 Apr 26, 2023

问题1、CSMSC + LJSpeech 训练（但是我们不是合成单发音人，还是用 2 个 spk_id），无法解耦是什么意思，是音色会串，还是根本训练不出正确的声音呢？
问题2、利用当前中英文方案+新的中英文数据进行微调（男声），合成出的声音电流音/机械音很重，您这边有什么建议吗？ mfa也尝试过自己训练，自己的数据干净无噪咬字清晰。

janelu9 · 2022-10-11T12:21:01Z

janelu9
Oct 11, 2022

有开源方言可直接调用的接口吗？

5 replies

yazone Oct 12, 2022
Author

有开源方言可直接调用的接口吗？

暂时没看到有免费的

WhiteFu Oct 17, 2022

大佬你好，上述数据是网上爬虫整理的，还是采购的，方言效果不错，如果是采购的话请问哪里可以获取

yazone Oct 17, 2022
Author

大佬你好，上述数据是网上爬虫整理的，还是采购的，方言效果不错，如果是采购的话请问哪里可以获取

整理的呢，主要验证无英文语料的方言发音人的英文发音音色和韵律是什么效果

WhiteFu Oct 23, 2022

好的，谢谢哈

523997931 Jun 27, 2023

大佬，您是只用了中文语料finetune，没有加英文语料训练出的结果嘛？

ly1984 · 2022-11-02T02:20:59Z

ly1984
Nov 2, 2022

@yazone 大佬你好，卡通音色和方言大概用了多少数量的数据啊？另外方言这块例如粤语的声母韵母体系以及MFA使用的是普通话的吗？

13 replies

kslz Feb 8, 2023

标注字幕这块我是用的剪映，字幕生成的效果不错，然后利用你那个小软件切片音频。对了，speajer_id_map.txt文件里的ID是不能新增的吗，finetune的时候只能选择里面的spkid吗

这可能得问子龙了@yt605155624

yt605155624 Feb 8, 2023
Collaborator

是的，可微调 speaker 数目的上限是预训练模型的 speaker 数目

13604099691 Feb 8, 2023

是的，可微调 speaker 数目的上限是预训练模型的 speaker 数目

请问，原始音频的采样率对训练结果有影响吗？我看AISHELL-3数据集的音频采样率都是44100，需要保持一致吗

yt605155624 Feb 9, 2023
Collaborator

有一定影响，AISHELL-3数据集的音频采样率都是44100，但是我们的 config 设置的是 24k 哈，建议你的采样率 >=24k，不需要自己执行下采样，我们在 librosa.load 的时候会按照 config 里面设置的采样率进行下载采样

maize-j Feb 27, 2023

有一定影响，AISHELL-3数据集的音频采样率都是44100，但是我们的 config 设置的是 24k 哈，建议你的采样率 >=24k，不需要自己执行下采样，我们在 librosa.load 的时候会按照 config 里面设置的采样率进行下载采样

请问除了采样率以外，还有音频的什么其他因素会对训练结果有影响吗？

kslz · 2022-11-17T06:48:36Z

kslz
Nov 17, 2022

微调后的样例：
珈乐：（600句）

3_2.mp4

星瞳：（850句）

xtdcs.mp4

唐国强：（45句）

4.mp4

10 replies

kslz Feb 9, 2023

这是我训练时候的损失下降，是不是没到正常水平

不好说，因为据我所知finetune过程中loss不说明问题，只能隔一段时间听一听效果来主观判断

JovenRong Apr 3, 2023

@kslz 大佬好，打扰了，我听您训练的声音微调的是非常棒的，我目前，other/tts_finetune/tts3流程训练了男声，先是训练1000多句，然后提升到3000句提升比较明显，但还是机器人很重，3000句效果如下（大概2小时音频量）：

https://user-images.githubusercontent.com/3060496/229413832-2e55f590-a0c3-47a1-8c04-f4d36edff287.mp4
我继续增加到4500句（大概3小时音频量），基本没任何提升了，目前我可以调的只有epoch，200, 400，600都试过，lost基本上到1.4左右就下不去，请问大佬按照您训练的经验，我应该怎么继续提升呢？epoch通常设置多少呢？继续增加数据量吗？希望给点建议，感谢。

wutl92 Apr 20, 2023

微调后的样例：珈乐：（600句）

3_2.mp4
星瞳：（850句）

xtdcs.mp4
唐国强：（45句）

4.mp4

你好，请问想把声音读出来，带点情感不那么生硬，是需要自己训练吗？还是可以微调什么参数？

zapjone Jun 5, 2023

@kslz 大佬，你好，听《珈乐》这个合成的声音很自然。请问下这个数据集是使用的哪个数据集呢？能给个数据集的下载地址吗？谢谢!!!

kslz Jun 5, 2023

@kslz 大佬，你好，听《珈乐》这个合成的声音很自然。请问下这个数据集是使用的哪个数据集呢？能给个数据集的下载地址吗？谢谢!!!

应该是截的和离书和之后的那期单人直播，手动切的数据集。工具可以参考我的sound_dataset_tools2项目

caixxiong · 2023-02-13T04:53:08Z

caixxiong
Feb 13, 2023

您好，请问有具体的方法（做法）介绍嘛？在音素建模上中英文是怎么处理的呢？

1 reply

yt605155624 Feb 13, 2023
Collaborator

中英文混合语音合成参考

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/zh_en_tts/tts3

小样本 finetune 参考

可以学习一下我们的教程

https://aistudio.baidu.com/aistudio/course/introduce/25130

yangqinj · 2023-03-14T06:37:43Z

yangqinj
Mar 14, 2023

想问一下大家的卡通人物、明星和不同方言的数据都是从哪里获取的呢？

4 replies

kslz Mar 14, 2023

想问一下大家的卡通人物、明星和不同方言的数据都是从哪里获取的呢？

来看看这个项目 https://github.com/kslz/sound_dataset_tools2

yangqinj Mar 15, 2023

感谢回复！不过我的意思不是如何将数据转换为模型需要的格式，而是去哪里获取原始的音频文件。不知道你在哪里收集的？我在网上找到了一些动画片的音频，打算用这些数据构造数据集

kslz Mar 15, 2023

感谢回复！不过我的意思不是如何将数据转换为模型需要的格式，而是去哪里获取原始的音频文件。不知道你在哪里收集的？我在网上找到了一些动画片的音频，打算用这些数据构造数据集

我用的这个软件下载的音频 https://github.com/nilaoda/BBDown

yangqinj Mar 20, 2023

👍

ydmo · 2023-04-21T02:53:20Z

ydmo
Apr 21, 2023

想问一下，这个方案，看到的栗子都中英混合的，串音确实没有了。但是有试过纯英文，或者纯中文的吗，会串音吗？例如纯英文的，还是用LJSpeech那把声音。

0 replies

kaka1909 · 2023-08-16T05:32:25Z

kaka1909
Aug 16, 2023

弱弱的问一句，上面的蜡笔小新的音色，有能使用的finetune后的model么

1 reply

ben-8543 Aug 21, 2023

@yt605155624 请问加入多speaker的情感语料(离散情感：开心、伤心、中性、厌恶)可以实现，多语言多speaker的情感解耦吗

ben-8543 · 2023-08-21T03:06:09Z

ben-8543
Aug 21, 2023

@yt605155624 请问加入多speaker的情感语料(离散情感：开心、伤心、中性、厌恶)可以实现，多语言多speaker的情感解耦吗

0 replies

xinzhang9525 · 2023-09-25T01:59:15Z

xinzhang9525
Sep 25, 2023

请问下，单发音人方式的中英混合TTS是用的哪个模型呢？也是需要用相关的语料fine-tune吗

0 replies

balicheng · 2024-01-19T07:31:13Z

balicheng
Jan 19, 2024

基于PaddleSpeech/examples/other/tts_finetune /tts3/的readme，在中英混合模型上，如果从BZNSYP中选出来3k条语音微调am模型，loss可以下降到0.7左右，且用微调模型合成语音，声音比较清晰，同样用aishell3的数据集的某个人的声音的多条数据微调，推理模型合成的声音也很清晰，没有沙沙的声音；
但是用上述方法，在thchs30上选了250个同一个人的语音进行微调，微调后推理模型合成的语音存在沙沙的声音，又从thchs30中选出1000条同一个人的音色的数据微调，微调后loss仍然在1.5左右，且推理合成的声音中存在沙沙的声音，但是能学到微调数据中的音色。
请问大佬们，上述是哪里出现了问题呢

1 reply

starmoon-1134 Feb 23, 2024

使用am模型推理得到的mel频谱，去微调vocoder模型，应该能缓解这个问题

SaltedSlark · 2024-02-02T09:30:04Z

SaltedSlark
Feb 2, 2024

请问下方言是怎么做到的？

0 replies

jianghuakun · 2024-06-03T08:42:18Z

jianghuakun
Jun 3, 2024

大佬们，请问怎么改源码，可以支持中英文混合模型tts streaming?

0 replies

tiandiweizun · 2024-06-06T08:56:19Z

tiandiweizun
Jun 6, 2024

大佬，你训练的方言TTS考虑开源吗？

0 replies

zhaojiangbing · 2025-03-06T02:41:30Z

zhaojiangbing
Mar 6, 2025

怎么使用这个卡通模型呢？

0 replies

Lingeng56 · 2025-05-29T03:49:43Z

Lingeng56
May 29, 2025

hello，大佬，请问你这个tts是G2P based吗？请问东北话这种方言的g2p要怎么做呢？

0 replies

🎉 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS #2492

Uh oh!

Uh oh!

（一）单发音人方式（有数据才行！）

（二）多发音人语料混合方式（音色串了！）

（三）finetune方式（音色一致了！）

特色普通话

动漫

方言

Replies: 16 comments · 37 replies

Uh oh!

Uh oh!

yt605155624 Sep 30, 2022 Collaborator

Uh oh!

Uh oh!

Uh oh!

Uh oh!

yazone Oct 12, 2022 Author

Uh oh!

Uh oh!

yazone Oct 17, 2022 Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

yt605155624 Feb 8, 2023 Collaborator

Uh oh!

Uh oh!

yt605155624 Feb 9, 2023 Collaborator

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

yt605155624 Feb 13, 2023 Collaborator

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Replies: 16 comments 37 replies

yt605155624
Sep 30, 2022
Collaborator

yazone Oct 12, 2022
Author

yazone Oct 17, 2022
Author

yt605155624 Feb 8, 2023
Collaborator

yt605155624 Feb 9, 2023
Collaborator

yt605155624 Feb 13, 2023
Collaborator