第二十一届中国计算语言学大会(CCL 2022)开幕在即,其中的汉语学习者文本纠错(CLTC)评测任务也已进入收官阶段。本次评测共吸引了140多支队伍报名参赛,各队伍同场竞技,取得了令人赞叹的成绩!

本次评测旨在推动汉语学习者文本纠错任务的发展,由北京语言大学、清华大学、东北大学、苏州大学、阿里巴巴达摩院联合举办。本次评测整合了已有文本纠错任务和数据,并公开了一批新数据,共设置有五个赛道,覆盖了拼写检查、语法纠错、质量评估三个任务。

评测回顾

近年来,学界关于汉语学习者文本纠错已展开多方面、多角度的研究,如拼写检查(Chinese Spelling Check, CSC)、语法纠错(Grammatical Error Correction, GEC)、语法错误检测(Grammatical Error Diagnosis, GED)等,也已发布有一些相关的评测任务。

延续此前研究,我们在 CCL 2022 会议上举办了本次评测。本次评测具有以下几点特色:

首先,将语法纠错任务相关资源整合、汇聚于赛道二、三、四。其中,赛道二要求对留学生在汉语水平考试(HSK)作文中出现的错误进行检测和纠正,并首次公开了历年 CGED 评测数据用于训练和开发。赛道三关注语法纠错中的多维度问题,即从最小改动(Minimal Edit)和流利提升(Fluency Edit)两个方面给出多种句子修改方案,使用 YACLC 数据集用于开发和测试。赛道四则关注文本纠错的多来源问题,考虑不同来源的文本中可能蕴含的不同类型的语法错误,并且使用 MuCGEC 数据集用于开发和测试。

其次,为进一步推进中文拼写检查研究,本次测评基于 YACLC 数据集构建并公开了 YACLC-CSC 数据集,并作为赛道一的开发和测试数据。据我们所知,该数据集为首个简体中文拼写检查数据集。

最后,本次评测扩展了文本纠错任务,首次将质量评估(Quality Estimation, QE)纳入评测任务。在使用不同语法纠错方法,或基于柱搜索(Beam Search)获得多种修改方案后,质量评估任务要求评估不同修改结果的质量。该任务可以用于模型集成或其他情况下的结果重排序(Re-Ranking),可以在不改变模型的情况下显著提升修改效果。然而目前该任务所受关注较少,评测组织方倡议学界对这一任务加以重视,多加研究。

参与情况

本次评测自6月份发布数据集,7月份公开评测提交入口,经过一个多月的激烈竞争,于8月25日关闭提交。评测期间,各赛道共有140多支队伍参赛,报名参赛的队伍包括清华大学、北京大学、中国科学院等高校和科研院所,以及好未来、CVTE等企业。

为促进学界对汉语文本学习者纠错问题的研究,所有赛道均开放了供长期提交结果的验证榜单。借助本次评测公开的数据集,研究者可以将自己的方法和相关研究进行公平比较。

评测官方网站:https://blcuicall.github.io/CCL2022-CLTC

评测数据仓库:https://github.com/blcuicall/CCL2022-CLTC

赛道一、二、三、五排行榜:http://cuge.baai.ac.cn/#/ccl_yaclc

赛道四排行榜:https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328

获奖信息

现将各赛道获奖信息公开如下:

  • 赛道一:中文拼写检查(Chinese Spelling Check)
    • 一等奖:哒哒(达观数据)
    • 二等奖:iFunCun(方寸无忧)
    • 三等奖:csc_runner(CVTE)
  • 赛道二:中文语法错误检测(Chinese Grammatical Error Diagnosis)
    • 一等奖:NLP的未来(好未来)
    • 二等奖:一一(达观数据)
    • 三等奖:中国足球队(蜜度)
  • 赛道三:多维度汉语学习者文本纠错(Multidimensional Chinese Learner Text Correction)
    • 一等奖:kk(北京大学)
    • 二等奖:改正带小助手(苏州大学)
    • 三等奖:BUPTCL(北京邮电大学)
  • 赛道四:多参考多来源汉语学习者文本纠错(Multi-reference Multi-source Chinese Learner Text Correction)
    • 一等奖:啊对对对(清华大学)、鱼饼啾啾(北京大学) (综合指标非常接近,故并列)
    • 二等奖:棒棒冰(CVTE)
    • 三等奖:后厂村9号(海泰方圆)
  • 赛道五:语法纠错质量评估(Quality Estimation)
    • 一等奖:CPIC(中国太平洋保险)

衷心感谢各参赛队伍的参与,向获奖队伍以及所有参赛队伍表示祝贺!本信息在北京语言大学语言监测与智能学习研究组公众号平台同步公开,可扫描下方二维码关注。

qr-code

致谢

本次评测期间,许多同学在数据处理、基线模型实验、方法复现以及组织管理的各个环节付出了宝贵的时间和辛勤的劳动,他们的付出保证了本次评测得以成功举办。在此,我们向这些同学们表示感谢!

北京语言大学:王莹莹、孔存良、方雪至、廖田昕、刘鑫、鲁鹿鸣、徐萌、刘洋、吴鎏 清华大学:梁念宁 苏州大学:章岳 东北大学:周天硕