新闻 | 我组在 SemEval 2022 释义建模任务上斩获佳绩

2022-02-22 崇瑞宁孔存良王梦焰

近日，第十六届国际语义评测比赛（International Workshop on Semantic Evaluation, SemEval 2022）落下了帷幕。由北京语言大学信科院杨天麟老师、杨尔弘老师和北京交通大学计算机与信息技术学院黄雅平老师带领的参赛队伍（团队名：BLCU-ICALL，团队成员：孔存良、王誉杰、崇瑞宁、张恒源）在Task1：CODWOE - Comparing Dictionaries and Word Embeddings（比较词典与词向量），释义建模子任务上斩获佳绩。在比赛设置的五种语言（EN, ES, FR, IT, RU）中，分别取得了第一（IT），第二（ES，RU）和第三（EN，FR）的名次。

https://competitions.codalab.org/competitions/34022

比赛介绍

SemEval是全球范围内影响力最强、规模最大、参赛人数最多的语义评测竞赛，由国际计算语言学协会（Association for Computational Linguistics, ACL）下属的SIGLEX主办。ACL作为世界上影响力最大、最具活力的国际学术组织，其举办的计算语言学年会（Annual Meeting of the Association for Computational Linguistics）是国际自然语言处理的顶级会议。

我们的方法

本次比赛中，由于限制了预训练模型和额外数据的使用，针对输入信息匮乏的情况，我们设计了基于交叉注意力机制的多任务框架CAMF （Cross-Attention Multitasking Framework）。该框架主要包括以下特点：

框架融合了比赛提供的不同类型的语义向量，并且可以动态调整每个向量的权重。这样，模型可以结合更加丰富的语义信息，逐词生成出最终的释义。
框架使用遮罩语言模型（MLM，Masking Language Model）联合建模释义信息，使得模型可以生成更加流畅、准确的释义。
通过集成学习（Ensemble Learning）来融合多个模型，相比于单一模型鲁棒性更强，效果更好。

我们的模型在效果上较比赛方提供的基线模型有较大提升。

关于我们(BLCU-ICALL)

北京语言大学语言监测与智能学习组（BLCU-ICALL），隶属于信息科学学院，依托国家语言资源监测与研究平面媒体中心和语言资源高精尖创新中心开展科学研究。学术带头人为杨尔弘教授，核心骨干为岳岩副教授和杨天麟副教授。

我组致力于智能辅助语言学习和语言监测研究，以语料库语言学、计算语言学和人文计算等为学科基础，瞄准智能语言学习若干前沿问题，探索辅助汉语学习的理论、方法、技术；以大规模动态流通语料库为基础，探索动态语言知识更新。