公告 | CCL 2022 汉语学习者文本纠错评测结果出炉

2022-10-18 孔存良 王梦焰 常鸿翔


第二十一届中国计算语言学大会(CCL 2022)开幕在即,其中的汉语学习者文本纠错(CLTC)评测任务也已进入收官阶段。本次评测共吸引了140多支队伍报名参赛,各队伍同场竞技,取得了令人赞叹的成绩!

本次评测旨在推动汉语学习者文本纠错任务的发展,由北京语言大学、清华大学、东北大学、苏州大学、阿里巴巴达摩院联合举办。本次评测整合了已有文本纠错任务和数据,并公开了一批新数据,共设置有五个赛道,覆盖了拼写检查、语法纠错、质量评估三个任务。

评测回顾

近年来,学界关于汉语学习者文本纠错已展开多方面、多角度的研究,如拼写检查(Chinese Spelling Check, CSC)、语法纠错(Grammatical Error Correction, GEC)、语法错误检测(Grammatical Error Detection, GED)等,也已发布有一些相关的评测任务。

延续此前研究,我们在 CCL 2022 会议上举办了本次评测。本次评测具有以下几点特色:

首先,将语法纠错任务相关资源整合、汇聚于赛道二、三、四。其中,赛道二要求对留学生在汉语水平考试(HSK)作文中出现的错误进行检测和纠正,并首次公开了历年 CGED 评测数据用于训练和开发。赛道三关注语法纠错中的多维度问题,即从最小改动(Minimal Edit)和流利提升(Fluency Edit)两个方面给出多种句子修改方案,使用 YACLC 数据集用于开发和测试。赛道四则关注文本纠错的多来源问题,考虑不同来源的文本中可能蕴含的不同类型的语法错误,并且使用 MuCGEC 数据集用于开发和测试。

其次,为进一步推进中文拼写检查研究,本次测评基于 YACLC 数据集构建并公开了 YACLC-CSC 数据集,并作为赛道一的开发和测试数据。据我们所知,该数据集为首个简体中文拼写检查数据集。

最后,本次评测扩展了文本纠错任务,首次将质量评估(Quality Estimation, QE)纳入评测任务。在使用不同语法纠错方法,或基于柱搜索(Beam Search)获得多种修改方案后,质量评估任务要求评估不同修改结果的质量。该任务可以用于模型集成或其他情况下的结果重排序(Re-Ranking),可以在不改变模型的情况下显著提升修改效果。然而目前该任务所受关注较少,评测组织方倡议学界对这一任务加以重视,多加研究。

参与情况

本次评测自6月份发布数据集,7月份公开评测提交入口,经过一个多月的激烈竞争,于8月25日关闭提交。评测期间,各赛道共有140多支队伍参赛,报名参赛的队伍包括清华大学、北京大学、中国科学院等高校和科研院所,以及好未来、CVTE等企业。

为促进学界对汉语文本学习者纠错问题的研究,所有赛道均开放了供长期提交结果的验证榜单。借助本次评测公开的数据集,研究者可以将自己的方法和相关研究进行公平比较。

评测官方网站:https://blcuicall.org/CCL2022-CLTC

评测数据仓库:https://github.com/blcuicall/CCL2022-CLTC

赛道一、二、三、五排行榜:http://cuge.baai.ac.cn/#/ccl_yaclc

赛道四排行榜:https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328

获奖信息

现将各赛道获奖信息公开如下:

  • 赛道一:中文拼写检查
    • 一等奖:哒哒(达观数据)
    • 二等奖:iFunCun(方寸无忧)
    • 三等奖:csc_runner(CVTE)
  • 赛道二:中文语法错误检测
    • 一等奖:NLP的未来(好未来)
    • 二等奖:一一(达观数据)
    • 三等奖:中国足球队(蜜度)
  • 赛道三:多维度汉语学习者文本纠错
    • 一等奖:kk(百度)
    • 二等奖:改正带小助手(苏州大学)
    • 三等奖:BUPTCL(北京邮电大学)
  • 赛道四:多参考多来源汉语学习者文本纠错
    • 一等奖:啊对对对(清华大学)、鱼饼啾啾(北京大学)
    • 二等奖:棒棒冰(CVTE)
    • 三等奖:后厂村9号(海泰方圆)
  • 赛道五:语法纠错质量评估
    • 一等奖:CPIC(中国太平洋保险)

衷心感谢各参赛队伍的参与,向获奖队伍以及所有参赛队伍表示祝贺!

致谢

本次评测期间,许多同学在数据处理、基线模型实验、方法复现以及组织管理的各个环节付出了宝贵的时间和辛勤的劳动,他们的付出保证了本次评测得以成功举办。在此,我们向这些同学们表示感谢!

北京语言大学:王莹莹、孔存良、方雪至、廖田昕、刘鑫、鲁鹿鸣、徐萌、刘洋、吴鎏
清华大学:梁念宁
苏州大学:章岳
东北大学:周天硕