Skip to content

dataset

nl8590687 edited this page Jun 24, 2018 · 8 revisions

Datasets 数据集

  • 清华大学THCHS30中文语音数据集

data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noise.tgz

resource.tgz http://cn-mirror.openslr.org/resources/18/resource.tgz

  • Free ST Chinese Mandarin Corpus

ST-CMDS-20170001_1-OS.tar.gz http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

特别鸣谢!感谢前辈们的公开语音数据集

注:在datalist/目录下的文件为整理好的数据集的列表和标签

通过git克隆仓库以后,需要将datalist目录下的文件全部拷贝到dataset目录下,也就是将其跟数据集放在一起。

其中,dataset目录可以是一个目录,也可以是指向数据集存放目录的软连接,但不建议使用硬连接。

$ cp -rf datalist/* dataset/

Data Format 数据格式

语音数据文件

wav格式 diff文件头 采样频率16 kHz, 采样位数16 bits, 256 samples, 2 bytes 长度 (是不是raw格式都可以,只要能够正确读取内容即可)

标签数据文件

参照datalist/目录下文件

Clone this wiki locally