dataset

Datasets 数据集

清华大学THCHS30中文语音数据集

data_thchs30.tgz OpenSLR国内镜像 OpenSLR国外镜像

test-noise.tgz OpenSLR国内镜像 OpenSLR国外镜像

resource.tgz OpenSLR国内镜像 OpenSLR国外镜像
Free ST Chinese Mandarin Corpus

ST-CMDS-20170001_1-OS.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
AIShell 开源版数据集 (本项目暂未使用，之后会加入)

data_aishell.tgz OpenSLR国内镜像 OpenSLR国外镜像
Primewords Chinese Corpus Set 1 (本项目暂未使用，之后会加入)

primewords_md_2018_set1.tar.gz OpenSLR国内镜像 OpenSLR国外镜像

特别鸣谢！感谢前辈们的公开语音数据集

如果提供的数据集链接无法打开和下载，请点击该链接 OpenSLR

.

注：在datalist/目录下的文件为整理好的数据集的列表和标签

通过git克隆仓库以后，需要将datalist目录下的文件全部拷贝到dataset目录下，也就是将其跟数据集放在一起。

其中，dataset目录可以是一个目录，也可以是指向数据集存放目录的软连接，但不建议使用硬连接。

$ cp -rf datalist/* dataset/

关于数据集文件的路径树，可以直接参考datalist目录下的*.lst和*.txt文件中的内容进行排放

下载后的文件解压，目录对应如下：

dataset/data_thchs30/train/*.wav
dataset/data_thchs30/dev/*.wav
dataset/data_thchs30/test/*.wav
dataset/ST-CMDS-20170001_1-OS/*.wav

对于thchs30数据集来说，直接按照解压后目录中的train/ dev/和test/目录放置就可以，对于ST-CMDS数据集来说，解压后的目录直接放置在dataset/下即可，数据集的划分都由wav列表文件来决定。

语音数据文件

wav格式 diff文件头采样频率16 kHz, 采样位数16 bits, 256 samples, 2 bytes 长度 (是不是raw格式都可以，只要能够正确读取内容即可)

标签数据文件

参照datalist/目录下文件

对机器学习等方面有兴趣的欢迎来我的博客逛一逛：

AI柠檬一个科技爱好者的个人博客

也欢迎加入作者的技术博客交流QQ群：894112051