新闻丨中文文本简化数据集MCTS发布
由北京语言大学语言监测与智能学习研究组构建的中文文本简化数据集MCTS近日发布。文本简化任务是自然语言处理领域的基础任务之一,旨在通过改写使句子更容易理解。文本简化可以助力分级阅读、机器翻译等研究,并帮助语言学习者理解复杂文本。目前,关于中文文本简化的研究较少,缺乏通用的评估数据是重要原因之一。为此,我组构建了多参考中文文本简化数据集MCTS (Multi-Reference Chinese Text Simplification Dataset)。该数据集是迄今为止中文文本简化任务上规模最大、参考最多的评估数据集,包括723条从新闻语料中挑选的复杂结构句子,每一句分别包含多条人工简化后的句子。这是我们探索中文文本简化的一项基础性工作,期望能为今后的研究提供参考。
数据集:https://github.com/blcuicall/mcts
论文:MCTS: A Multi-Reference Chinese Text Simplification Dataset
标注过程
为了确保MCTS数据的质量,我们共招募了30余名标注员进行标注,并提供了标注原则的确切说明。我们定义了三种类型的句子改写方法:
改述:用简单的表达方式代替复杂的单词或短语;
句子压缩:从句子中删除重复或不重要的信息;
结构转换:将复杂的句子结构修改为简单的形式。
对于每一种改写方法,我们都提供了几个例子。标注员可以自己决定在任何给定的原始句子中执行一种或多种类型的改写。
文本特征分析
我们计算了简化示例的8种文本特征。以下为文本特征的统计图。(详细数据见论文)
相关实验
我们对多种基线方法进行了比较,这些方法包括:
- ChatGPT生成(gpt-3.5-turbo, text-davinci-003) :使用turbo和davinci-003模型的测试结果;
- 直接反向翻译(Direct Back Translation) :谷歌翻译进行反向翻译的生成结果;
- 翻译Wiki-Large(Translated Wiki-Large):使用翻译的Wiki-Large数据集训练的BART-base文本简化模型生成的测试结果;
- 跨语言伪数据(Cross-Lingual Pseudo Data):用伪数据训练的BART-Base模型生成的测试结果。
我们采用EASSE提供的自动化评估指标SARI、BLEU,以及Kong等人在论文《Multitasking framework for unsupervised simple definition generation》提供的HSK-Level评估方式。结果如下表:
对其中表现较好的几种代表性方法,我们聘请具有语言学背景的标注员,从流利性、语义完整性和简单性三个方面,进行了人工评估。评估结果如下:
MCTS数据集中的人工简化参考(Gold Reference)在人工评估中获得了最好的平均分数和排名,明显优于其他简化系统的输出结果。
作者
如果您有任何问题,或对我们的相关研究有兴趣,欢迎联系我们!
崇瑞宁:(chongruining@outlook.com)
鲁鹿鸣:(lulm410402@foxmail.com)