语法自动纠错

总体介绍

语法自动纠错(Grammatical Error Correction,简称GEC)旨在自动检测并修改语言学习者文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。GEC是智能计算机辅助语言学习(Intelligent Compute)研究领域的重要任务,尤其是智能辅助写作技术开发,既可以辅助非母语者进行写作,帮助学生更快掌握写作能力,也可以协同教师进行作文批改,提高语言教学的效率,有利于促进语言教学现代化,语言学习智能化。

针对这一任务,我们面向汉语和英语,主要从资源建设、模型开发和智能批改系统三个方面做了以下研究:

资源建设

我们选取话题更为丰富的语言使用场景中的汉语学习者文本,设计一套多维度富信息标注体系,招募183名汉语国际教育相关专业的标注员,基于众包标注平台,构建了一个包括最小改动和流利提升两种维度的大规模、高质量、篇章级别的汉语学习者文本多维标注语料库YACLC (Yet another Chinese Learner Corpus)。
详细介绍:https://github.com/blcuicall/YACLC

同时,基于YACLC数据集,我们依托第二十一届中国计算语言学大会(CCL 2022),组织了汉语学习者文本纠错评测。本次评测既整合了已有的相关评测数据和任务,又有新开发的数据集,以设置多赛道、统一入口的方式开展比赛任务。
详细介绍:https://github.com/blcuicall/CCL2022-CLTC

模型开发

我们从模型架构、领域适应、数据增强、质量评估、个性化纠错等多个方面进行研究,详细内容见各相关论文。

作文智能批改系统

“文心·写作”是我中心开发的一款作文智能批改系统。系统旨在面向英语和汉语非母语学习者,利用先进的人工智能技术,自动完成作文的智能批改,包括对原文中词汇和语法错误的精准识别、归类、高亮显示以及修改建议等功能。
英文批改系统:http://iwriter.wenmind.net
中文批改系统:https://writer.wenmind.net

我们整理开源了语法改错及拼写检查相关的论文列表:GEC-Reading-List,覆盖了语法改错及拼写检查任务相关的已发表的论文、综述等,欢迎使用。

论文列表:https://github.com/blcuicall/GEC-Reading-List

指导老师

  • 杨尔弘, 北京语言大学教授
  • 杨天麟, 北京语言大学副教授
  • 陈云, 上海财经大学信息管理与工程学院副教授
  • 刘正皓, 东北大学计算机科学与工程学院副教授

研究团队

  • 王莹莹, 北京语言大学信息科学学院博士生
  • 孔存良, 北京语言大学信息科学学院博士生
  • 廖田昕, 北京语言大学信息科学学院硕士生
  • 刘鑫, 北京语言大学信息科学学院硕士生
  • 周俊宇, 北京语言大学信息科学学院硕士生
  • 王辰成, 北京工业大学信息学部硕士(已毕业)
  • 张生盛, 北京交通大学计算机与信息技术学院硕士(已毕业)
  • 王一君, 北京语言大学信息科学学院本科生(已毕业)
  • 庞桂娜, 北京语言大学信息科学学院本科生(已毕业)

相关论文

  • Liner Yang, Chengcheng Wang, Yun Chen, Yongping Du, Erhong Yang. 2022. Controllable Data Synthesis Method for Grammatical Error Correction. Frontiers of Computer Science (FCS).
  • Yingying Wang, Cunliang Kong, Liner Yang, Yijun Wang, Xiaorong Lu, Renfen Hu, Shan He, Zhenghao Liu, Yun Chen, Erhong Yang, and Maosong Sun. 2021. YACLC: A Chinese Learner Corpus with Multidimensional Annotation. arXiv:2112.15043.
  • 张生盛,庞桂娜,杨麟儿,王辰成,杜永萍,杨尔弘,黄雅平. 面向汉语作为第二语言学习的个性化语法纠错. 中文信息学报, 2021, 35(12):28-35.
  • Zhenghao Liu, Xiaoyuan Yi, Maosong Sun, Liner Yang, Tat-Seng Chua. 2021. Neural Quality Estimation with Multiple Hypotheses for Grammatical Error Correction. In Proceedings NAACL-HLT 2021.
  • Shengsheng Zhang, Yaping Huang, Yun Chen, Liner Yang, Chencheng Wang, and Erhong Yang. 2021. Few-Shot Domain Adaptation for Grammatical Error Correction via Meta-Learning. arXiv:2101.12409.
  • 王辰成, 杨麟儿, 王莹莹, 杜永萍, 杨尔弘. 基于 Transformer 增强架构的中文语法纠错方法. 中文信息学报, 2020, 34(06):106-114.
  • Liner Yang, Chencheng Wang, Tianxin Liao, Erhong Yang. 2019. The BLCU System in the BEA 2019 Shared Task. In Proceedings of BEA 2019.

拼写检查

总体介绍

拼写错误是指人们在进行输入或书写时由于汉字的形近或音近关系导致的汉字误用,拼写检查任务旨在使用相关技术去检测并修改拼写错误为正确的汉字。这一任务对许多任务来说相当重要,比如:搜索引擎的输入校正、光学字符识别、作文自动评分等等。

针对这一任务,我们做了以下研究:

  1. 对前期发布的多维度标注语法改错数据集YACLC进行了再标注和提取,构建了一个新的拼写检查评测数据集YACSC,该数据集语料来源为汉语二语学习者,同时我们保留了其中的语法错误,相比学界普遍用来评测的SIGHAN数据集更贴近真实场景。

  2. 我们提出了一个多模态的模型架构,通过融入汉字拼音及字形信息,以辅助模型进行拼写错误修改。实验表明,我们的工作相比前人工作不论在SIGHAN还是YACLC上的评测结果都有了显著提升。

我们整理开源了语法改错及拼写检查相关的论文列表:GEC-Reading-List,覆盖了语法改错及拼写检查任务相关的已发表的论文、综述等,欢迎使用。

论文列表地址:https://github.com/blcuicall/GEC-Reading-List

指导老师

  • 杨尔弘, 北京语言大学教授
  • 杨天麟, 北京语言大学副教授
  • 刘正皓, 东北大学计算机科学与工程学院副教授

研究团队

  • 廖田昕, 北京语言大学信息科学学院硕士生
  • 刘 鑫, 北京语言大学信息科学学院硕士生
  • 王梦焰, 北京语言大学信息科学学院硕士生
  • 方雪至, 北京语言大学信息科学学院硕士生(已毕业)

相关论文

  • Coming soon…