新闻 | 语言学习新助力:“文心·词典”系统

2021-03-21 孔存良

词典是语言学习者重要的工具之一,可以为阅读、写作以及日常交流提供帮助。传统词典需要预先编制词语的释义、例句,用户检索时按图索骥,找到自己需要的释义。然而,由于多义词的存在,用户在使用传统词典时,即便找到了词条,也未必能够找到合适的义项。比如词语此外,由于传统词典需要人工编制,使得词条、释义的更新速度缓慢,往往大幅落后于实际的语言使用。

系统介绍

为了解决传统词典的上述弊端,切实满足语言学习者的现实需求,我们开发了“文心·词典”系统。系统借助自然语言处理手段,以自动生成的方式为用户提供词语的释义。以阅读场景为例,用户不认识句子中的某个词语,可以将该词语和句子提交至本系统,系统将会生成词语在当前句子中的释义。系统整体的工作流程如下图所示。


用户界面

如下图所示,系统具有用户友好的操作界面,美观大方,简便易用,旨在用最快捷的方式,帮助用户了解词义。为了满足不同语言需求的学习者,系统支持“中-中”“中-英”及“英-英”三种语言模式。此外,系统还设置了便捷的反馈渠道,用户可以通过点击词条释义后的按钮,提交其认为更合适的释义。

释义生成模型

“文心·词典”的主要创新之处,在于可以生成出词语的释义。这样,即便一个词语没有在预置的词表之中(新词语),或词语随着使用产生了前所未有的意思(旧词新义),“文心·词典”都可以生成出它的释义。图3所示的框架图展示了用于生成释义的模型结构。

上图展示的释义生成模型是一个基于 Transformer 的编码器-解码器模型,其编码器使用预训练语言模型(BERT)进行了初始化。编码器的主要作用是编码用户提供的词语和上下文(包含词语的句子)。在编码时,首先使用BPE算法对词语和上下文进行子词切分,并将每个子词作为一个token。其次,将切分后的词语和上下文拼接成为一个序列,中间使用“[SEP]”作为分隔符。最后,为了表示词语和句子的位置信息,我们在每个 token 的向量中加入了位置表征(positional embedding)和段表征(segment embedding)信息。 在获取到编码器输出的向量后,直接使用Transformer解码器进行解码,生成出词语和上下文对应的释义。

跨语言模式

除了支持中文-中文和英文-英文的查询,“文心·词典”还支持“中文-英文”的查询方式。即,对于用户输入的中文词语,系统生成该词语的英文释义。初级汉语学习者尚未掌握充分的汉语词汇,往往难以使用“中-中”模式进行查询,因此,支持“中-英”模式对于初级汉语学习者来说尤为重要。 为了支持跨语言查询,系统使用了扩展的释义生成模型。在图3所示模型的基础上,使用跨语言预训练模型(如 Multilingual BERT)对编码器进行初始化,再使用词典语料进行训练,便得到了跨语言释义生成模型。 目前,“中-英”之外的跨语言释义生成模型正在训练中,不久即将上线,届时欢迎大家体验使用!


点击如下链接访问“文心·词典”:

https://dict.blcuicall.org

https://dictionary.litmind.ink


相关研究成果

[1] Liner Yang, Cunliang Kong, Yun Chen, Yang Liu, Qinan Fan, and Erhong Yang. 2020. Incorporating sememes into chinese definition modeling. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 28:1669–1677.

[2] Haitong Zhang, Cunliang Kong, Liner Yang, Shan He, Yongping Du, Erhong Yang. 2020. Gated Context-Aware Network for Definition Generation. Journal of Chinese Information Processing, 2020(7):105-112.

[3] Qinan Fan, Cunliang Kong, Liner Yang, and Erhong Yang. 2020. Chinese definition modeling based on BERT and beam seach. In Proceedings of the 19th Chinese National Conference on Computational Linguistics, pages 336–348.

[4] Cunliang Kong, Liner Yang, Tianzuo Zhang, Qinan Fan, Zhenghao Liu, Yun Chen, and Erhong Yang. 2020. Toward cross-lingual definition generation for language learners. arXiv preprint arXiv:2010.05533.

[5] 《外向型汉语学习词典的自动编纂研究》, 国家语委重点(科研中心)项目, ZDI135-105.