新闻 | 用于语言学习的词汇难度可控句子生成

2023-07-21 编辑：朱君辉聂锦燃常鸿翔

第二十二届中国计算语言学大会(The 22nd China National Conference on Computational Linguistics, CCL 2023) 将于2023年8月3-5日在黑龙江省哈尔滨市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议，是中国最大的自然语言处理学者和专家的社区。我组论文《Lexical Complexity Controlled Sentence Generation for Language Learning》被大会录用并将于会议上做口头报告，作者为聂锦燃、杨麟儿、陈云、孔存良、朱君辉、杨尔弘。以下是论文相关介绍。

论文摘要

语言教师通常按照由易到难的顺序教授词汇，语言学习者也需要通过与特定词汇难度相匹配的例句进行词汇学习。根据这一需求，我们定义了词汇难度可控的句子生成任务：给定一组关键词和词汇难度等级，要求只使用给定的难度等级的词汇来生成句子，并且包含给定的关键词。我们为该任务构建了中文与英文两个数据集，并且提出了四种指标的计算方式来评测词汇难度控制。该任务现有潜在的三种解决方案都存在一些不足，据此我们提出了基于难度嵌入的方法。实验结果表明，该方法相比基线方法可以更精确的控制词汇难度，并且具有较好的生成质量。

背景介绍

在语言教学领域，教师常常需要自行构造出由特定难度等级的词汇所组成的句子。比如待学习的词为“palm”，其中教师在给出例句时，需要尽量控制句中其他词汇的难度低于该词，以使学生的注意力集中在待学习的词上，且不会受到来自句中其他更难词汇的阻碍。这一过程通常耗费教师大量的时间与精力，例句的自动生成研究则能有效为教师分担压力。然而，现有的可控文本生成研究对严格控制生成文本中词汇难度等级尚未涉及，因此本文提出词汇难度可控的例句生成任务。任务实例如图所示，给定关键词和词汇难度等级，要求生成的句子只使用要求的难度等级的词汇，并且包含了给定的关键词。

主要工作

1.提出了基于难度嵌入的方法：在词嵌入层和位置嵌入层之上加入词汇难度嵌入层，将词汇难度信息融入模型的训练和预测中；将词汇难度等级以硬提示的方式加入到输入序列中，并设置其难度嵌入与对应难度等级词汇的难度嵌入一致，以增加词汇难度等级的表示与对应难度等级词汇之间的交互性，从而提示模型按照指定词汇难度等级来生成文本。

2.提出四个评测指标的计算方式，对词汇难度控制准确度进行评价：

Acc：生成的句子满足等级要求的词汇数量比例

P: 生成的句子中满足要求的等级占出现的等级数量的比例

R: 生成的句子中满足要求的等级占要求的等级数量的比例

F1: 2P*R/(P+R)

3.构建中英文两个数据集。英文数据集采用新闻语料，中文数据集采用国际中文教材语料。中文的词汇难度等级参考 2021 年由教育部发布的《国际中文教育中文水平等级标准》。英文的词汇难度参照《欧洲共同语言参考框架》（Common European Framework of Reference for Languages，CEFR），共包含 A1-C2 六个等级，我们采用 English Profile Programme词汇部分的等级划分。语料处理流程包括：分句、分词、词汇难度等级提取等。如表所示为数据集规模（单位：句）。

实验结果

• 英文数据集上的生成质量自动评测

• 英文数据集上词汇控制的准确度自动评测结果

• 中文数据集上的生成质量自动评测

• 中文数据集上词汇控制的准确度自动评测结果

• 人工评测结果

• 生成实例

实验结果表明，我们的方法（CE）在R 和 F1 指标上难度嵌入方法表现最好，说明难度嵌入的方法在词汇难度等上的覆盖率更高。而控制解码的方法在 R 和 F 指标上表现最差。这说明控制解码的方式倾向生成概率较高的词语，难以满足所有要求的等级词汇都出现。控制解码的方式的特点是当 ACC 和 P 指标较高时，而 R 和 F1 指标较低。其代表的含义是控制解码的方法生成的文本倾向生成所要求的等级中较为常见的等级的词汇。举例来说，例如要求生成词汇难度等级为1，2，3 等级，控制解码的方法倾向于生成的每一个词都是 1 等级的词，而不出现 2 和 3 等级的词。而难度嵌入方法则倾向于 1，2，3 等级的词都生成，因此 R 和 F 指标较高。综合来看，难度嵌入的方法对词汇难度的控制更精准。而在生成质量上，我们的方法也在流利度（PPL）和多样性（Entropy；Distinct）方面具有更好的表现。

总结

我们从辅助语言学习的实际应用场景出发，指出该场景中需要控制文本生成的词汇难度这一需求。基于此提出了词汇难度可控的词汇约束文本生成任务，并为该任务构建了中英文两个数据集。为了更好评估各个模型和方法对词汇难度控制的准确率，提出了四个评测指标的计算方式。在方法上，我们提出了基于难度嵌入的方法，实验表明我们所提出的难度嵌入的方法在词汇难度控制方面具有更好的性能，并且具有较好的文本生成质量。