-
-
Notifications
You must be signed in to change notification settings - Fork 1.9k
dataset
- 清华大学THCHS30中文语音数据集
data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz
test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noise.tgz
resource.tgz http://cn-mirror.openslr.org/resources/18/resource.tgz
- Free ST Chinese Mandarin Corpus
ST-CMDS-20170001_1-OS.tar.gz http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
特别鸣谢!感谢前辈们的公开语音数据集
.
注:在datalist/目录下的文件为整理好的数据集的列表和标签
通过git克隆仓库以后,需要将datalist目录下的文件全部拷贝到dataset目录下,也就是将其跟数据集放在一起。
其中,dataset目录可以是一个目录,也可以是指向数据集存放目录的软连接,但不建议使用硬连接。
$ cp -rf datalist/* dataset/
关于数据集文件的路径树,可以直接参考datalist目录下的*.lst和*.txt文件中的内容进行排放
下载后的文件解压,目录对应如下:
dataset/data_thchs30/train/*.wav
dataset/data_thchs30/dev/*.wav
dataset/data_thchs30/test/*.wav
dataset/ST-CMDS-20170001_1-OS/*.wav
对于thchs30数据集来说,直接按照解压后目录中的train/
dev/
和test/
目录放置就可以,对于ST-CMDS数据集来说,解压后的目录直接放置在dataset/下即可,数据集的划分都由wav列表文件来决定。
语音数据文件
wav格式 diff文件头 采样频率16 kHz, 采样位数16 bits, 256 samples, 2 bytes 长度 (是不是raw格式都可以,只要能够正确读取内容即可)
标签数据文件
参照datalist/
目录下文件