Skip to content

zejunwang1/CTCDataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

32 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CTCDataset

本仓库收集了一些开源的中文拼写/语法纠错数据集,可用于中文纠错模型的训练。数据集均已处理为如下的 jsonl 格式:

{
    "source": "完善农产品上行发展机智。",
    "target": "完善农产品上行发展机制。",
    "label": 1
}

source为可能包含拼写/语法错误的源句子,target为纠错后的目标句子,label表示源句子中是否包含错误,若label为1,则包含错误,否则不包含错误。

拼写纠错

语法错误

  • CCTC:针对母语人士的跨句中文文本纠错数据集,来自 https://aclanthology.org/2022.coling-1.294.pdf

    本项目对原始数据集CCTC/source_data进行了处理,在提取出包含错误的句子对同时,采样了一定数量的不含错误句子对。

  • CTC2021:中文文本纠错比赛,来自 https://github.com/destwang/CTCResources

  • midu2022:蜜度中文文本智能校对大赛,初赛阶段约 1000 条修正后的真实场景训练集数据位于midu2022/preliminary_extend_train.jsonl,初赛阶段约 1000 条修正后的真实场景验证集数据位于midu2022/preliminary_val.jsonl。决赛阶段约 2900 条修正后的真实场景数据位于midu2022/final.jsonl

    初赛阶段约 100 万条伪数据下载地址:

    https://pan.baidu.com/s/1gS2dpcQIZpvyT-a1jEsGSQ

    提取码: 99d7

  • yacsc:包含 2550 个句对的语法纠错数据集,位于yacsc/YACSC/YACSC-with_GE.jsonl

    来自 https://github.com/blcuicall/yacsc

  • NLPCC2023-task1:任务一中文语法纠错数据集

    来自 http://tcci.ccf.org.cn/conference/2023/taskdata.php

    处理了 HSK 和 MuCGEC 两个数据集,位于NLPCC2023/grammar/目录下。

样本数量统计

2460 ECSpell/ec_law.jsonl
3500 ECSpell/ec_med.jsonl
2220 ECSpell/ec_odw.jsonl

40000 cscd-ns/all.jsonl
 5000 cscd-ns/dev.jsonl
 5000 cscd-ns/test.jsonl
30000 cscd-ns/train.jsonl

3410 lemon/car.jsonl
1026 lemon/cot.jsonl
3434 lemon/enc.jsonl
 400 lemon/gam.jsonl
2090 lemon/mec.jsonl
5892 lemon/new.jsonl
6000 lemon/nov.jsonl

196496 MCSCSet/filtered_data.jsonl
 19650 MCSCSet/test.jsonl
157194 MCSCSet/train.jsonl
 19652 MCSCSet/valid.jsonl

271281 Wang271k/data.jsonl

1000 sighan/sighan13_test.jsonl
 350 sighan/sighan13_train.jsonl
1062 sighan/sighan14_test.jsonl
3437 sighan/sighan14_train.jsonl
1100 sighan/sighan15_test.jsonl
2339 sighan/sighan15_train.jsonl

1000 yacsc/sighan_revised/test_sighan13.jsonl
1062 yacsc/sighan_revised/test_sighan14.jsonl
1100 yacsc/sighan_revised/test_sighan15.jsonl
2550 yacsc/YACSC/YACSC-no_GE.jsonl
2550 yacsc/YACSC/YACSC-with_GE.jsonl

2311 CCTC/cctc_test_wide.jsonl
2159 CCTC/cctc_train.jsonl

217634 CTC2021/train_large_v2.jsonl
   969 CTC2021/val.jsonl

2919 midu2022/final.jsonl
1000 midu2022/preliminary_extend_train.jsonl
1014 midu2022/preliminary_val.jsonl

156831 NLPCC2023/grammar/HSK/hsk.jsonl
  2467 NLPCC2023/grammar/MuCGEC/MuCGEC_dev_all.jsonl
  1137 NLPCC2023/grammar/MuCGEC/MuCGEC_dev_min_edit_distance.jsonl
  1000 NLPCC2023/spell/data.jsonl

声明

本仓库数据集只能用于学术研究,请勿用作商业。

About

中文文本纠错数据集汇总

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages