新闻 | 《智能辅助汉语写作研究》项目成果介绍
项目介绍
《智能辅助汉语写作研究》(TYZ19005)项目由语言资源高精尖创新中心特聘研究员、北京语言大学信息科学学院杨天麟副教授主持开展。项目于2019年12月立项,2023年7月开展结项工作。
智能辅助语言学习是当前人工智能研究领域重要的研究内容,随着大语言模型技术的发展,智能辅助语言学习的技术更迭速度也越来越快,不少研究已经融入实际的应用系统中。本项目以国际中文教育为背景,结合北京语言大学的学科特色,秉承加强智能语言学习(Intelligent Computer-Assisted Language Learning, ICALL) 的知识传播、数据共享、软件开源的理念,从面向汉语学习者辅助写作的基础资源建设、智能辅助写作技术和辅助写作系统三个方面开展研究。
项目成果
经过三年的研究,项目组建设、发布、共享3个数据资源库;研发辅助写作系统2个;并拓展研究多意图文本修订、难度可控的词语释义生成等任务;在国内外学术期刊上发表论文40篇。
下面对本项目的代表性研究成果进行介绍。
一、基础资源建设
1. 汉语学习者文本多维标注数据集YACLC 1.0
YACLC设计了一套包括最小改动、流利度提升、句子可接受度、上下文依赖性的多维度富信息标注体系,采用众包策略标注了18,000篇、24,000句的语言使用场景下的汉语学习者文本,获取约210,000个标注句对。
此数据集于2021年12月底在在智源指数 CUGE 平台发布。
2. 汉语学习者依存句法树库
提出了一套更适用于汉语学习者语料的标注规范。从YACLC语料库中筛选出带语法偏误信息的数据,通过人机结合的方式,对分词、词性和依存句法进行标注,形成了汉语学习者依存句法树库,并研发了汉语依存分析工具,作为大规模语料库的底层技术,支持语料库的句法结构、语法点的检索。
3. 汉语语言点知识库
依据《国际中文教育中文水平等级标准》《语法等级大纲》,根据可检索性、全面性和必要性原则,通过使用合并、去重、具体化和删除的方法确立了包含词汇、句子、语篇层的语言点形式化体系。在此基础上,结合语言学和对外汉语语法教学的相关知识规则为每条语言的构造了语言点检索式,为其在大规模语料中的自动检索提供支持,形成汉语语言点知识库,实现了语言点与任意文本的互动。
二、智能辅助写作技术
依托本项目,探索了面向汉语学习者的语法纠错技术和面向汉语学习者的简单词语释义生成多任务框架,论文分别发表在国内核心期刊和国际计算语言学大会。同时,依托第一部分的资源建设,于2022年组织了汉语学习者文本纠错评测,项目组开发了基线模型,学术界、工业界的142支队伍参加比赛,反映该技术的当时的发展水平。
三、辅助写作系统
1. 汉语辅助写作系统
汉语辅助写作系统基于深度学习技术、语料库和云计算技术提供汉语作文自动在线批改服务,主要面向汉语非母语学习者,帮助学习者对作文中出现的拼写和语法错误进行智能修改,对原文中出现的错误进行精准定位,准确差错。
2. 中文CTAP—汉语文本复杂度分析平台
中文CTAP(通用文本分析平台)提供了一系列工具用以帮助进行文本语料的复杂度特征自动分析,系统根据用户期望的特征,给出文本的特征量化计算结果,以辅助文本定级、可读性性评估等任务。目前,CTAP已经实现英语、德语、意大利语三种语言文本的特征分析,支持475个特征的提取与计算。项目组利用CTAP开源平台,建构了汉语复杂度特征体系,首次实现了汉语的文本特征自动分析。研究者也可以在此平台上进行跨语言文本复杂度分析研究。