新闻 | 语言监测与智能学习组拍了拍你</h1>

2021-09-14 谢晨晖

北京语言大学语言监测与智能学习组(BLCU-ICALL),隶属于信息科学学院,依托国家语言资源监测与研究平面媒体中心和语言资源高精尖创新中心开展科学研究。

我组致力于智能辅助语言学习和语言监测研究,以语料库语言学、计算语言学和人文计算等为学科基础,瞄准智能语言学习若干前沿问题,探索辅助汉语学习的理论、方法、技术;以大规模动态流通语料库为基础,探索动态语言知识更新。

学术带头人为杨尔弘教授,核心骨干为岳岩副教授和杨天麟副教授。

我组现招收2021级计算机科学与技术专业工学硕士生,语言学与应用语言学、语言智能与技术、课程与教学论等相关专业的文学硕士生若干名。

研究方向

团队目前的研究领域覆盖语料库语言学、计算语言学和人文计算等,具体研究方向包括:

一、语言监测与计量研究

语言监测是一项以语言学和应用语言学以及相关理论为指导、信息处理技术为主要手段的社会性语言工程。自平面媒体中心2004年成立以来,团队在该方向上有十余年的研究积累,以语言资源建设为基础,通过对语言资源的开发、对语言生活状况的调查、媒体语言的动态监测,为国家语言政策的制定提供了数据基础,为语言生活、语言教学、语言信息处理提供服务。

1. 核心任务

  • 动态流通语料库(DCC)的建设

构建动态流通语料,记录了大众传媒的语言实态,反映语言生活,可提供任意词语的历时使用分布数据,是语言生活研究、服务与应用的历时大数据。目前中心所建构的国家语言资源动态流通语料库(DCC),采样全国100+份报纸,涵盖中国各省市,每年递增20亿+字次。

  • 年度流行语提取和发布

流行语发现是一项具有重要意义的基础性研究工作,其基于大量的语料,通过分析语料中字串的使用频率随时间的而变化发现语料中的流行语,运用计量手段,描述语言变化,反映社会状况。目前中心每年联合多家单位向社会发布“春夏季和年度中国主流报纸十大流行语”,与“汉语盘点”合并发布年度流行语,与光明日报联合进行教育领域流行语盘点。

  • 语言现象的使用监测

通过对某一领域或范围内的特定语言现象的使用监测,基于语料库语言学的理论和技术,用语言反映社会,语言的演变揭示社会的热点变化。

2. 成果

目前在语言监测与计量研究方向上,共向国家提供资政报告被采纳十余篇,承担/完成国家社科基金、国家自然科学基金、教育部人文社科项目国家语委等国家级省部级各类项目十余项,在核心期刊、国内国际会议上发表论文150余篇,完成著作多部,培养了几十名硕士博士。近期成果如下:

二、智能辅助语言学习

智能辅助语言学习(Intelligent Computer Assisted Language Learning,ICALL )是将人工智能等计算机技术应用到语言教学和学习的研究中,该方向依托于北语语言学及汉语教学领域的深厚积淀和学科优势,与计算机科学技术特别是人工智能前沿领域相结合,推进语言学习智能化研究,为人工智能时代汉语国际教育事业的发展探索技术路径。本组在智能辅助语言学习上的研究主要分为包括数据资源建设、学习词典编纂、作文辅助写作、文本复杂度分析等方向,目前有两项在研省部级项目和一项校级项目,已结项一项省部级项目,在国内外顶级会议和期刊发表论文十余篇,建设了 “文心”系列的多个辅助语言学习平台。

1. 数据资源建设

为提供基础的数据支撑,我组主要从学习者语料库和母语语料库两个方面构建所需的数据资源,还对数据资源进行深加工处理,包括语法偏误、依存结构、语义角色等信息的标注。核心任务包括语料采集、制定标注规范、搭建标注平台和语料处理技术等等。近期成果如下:


2. “文心”学习词典编纂

词典编纂是借助自然语言处理手段,以自动生成的方式为用户提供词语的释义。其核心技术为释义自动生成,可以针对给定的词语和上下文,使用计算机自动生成该词语在当前上下文中的释义。该技术可以为未被词典收录的新词语自动生成释义,也可以生成词语在特定语境下的释义。近期成果如下:


3. “文心”作文辅助写作

该方向探索人工智能学习技术与自然语言处理方法,应用于辅助汉语学习者的写作,帮助学生更快掌握汉语写作能力,包括作文智能批改、自动评分、写作润色和写作助手等研究内容。其中作文智能批改和自动评分可以帮助学习者不断提高语言应用能力,同时作文的评分与批改也可以作为汉语教师的辅助工具。润色和写作助手能辅助学习者学习到和写作出更贴近母语者习惯、更专业的语言表达。核心技术包括语法改错、作文自动评分、词法分析、句法语义分析、信心校准、领域自适应等,也包括机器辅助汉语学习者写作的汉语教学和学习任务中的理论和实践应用研究。近期成果如下:


4. “文心”文本复杂度分析

汉语文本复杂度分析是一项依据文本的复杂程度给出输入文本难度等级的研究任务,以期协助教师有针对性地为学生选择合适的学习材料或帮助学生对自己的写作练习进行复杂度评价。在该项任务中,通用的研究流程是依据语言学知识提出、选择和计算复杂度特征,与机器学习的方法相结合,然后给出具体的文本等级。近期成果如下:


毕业去向

团队已毕业硕博研究生几十名,有在国内外高校继续深造的;有进入IT公司,分布于百度、猎豹、知网、作业帮等单位;有进入国企和事业单位的,如中小学、中国移动、中航信、专利局、软件技术与服务公司等等。

我组常年招收本科生,培养后进入清华大学、厦门大学、北京交通大学等继续深造。

教师队伍

杨尔弘,北京语言大学教授,博士生导师,语言资源高精尖创新中心常务副主任,国家语言资源监测与研究平面媒体中心主任,兼任《中文信息学报》副主编。主要研究方向为语言信息处理、语言监测、学习者语料库建设、计算机辅助语言学习等。

邮箱:yerhong@blcu.edu.cn

岳岩,北京语言大学汉语国际教学专业副教授,硕士生导师。清华大学语言学与应用语言学专业硕士、清华大学首位汉语史专业博士、清华大学政策研究博士后。主要研究方向为汉语史、对外汉语教材编写、汉语语法研究、语言政策研究等。

邮箱:yueyan@blcu.edu.cn

杨天麟,北京语言大学信息科学学院副教授,硕士生导师。博士毕业于清华大学计算机科学与技术系。主要研究方向为自然语言处理、机器学习和计算机辅助语言学习等。获2020 年中文信息学会钱伟长中文信息处理科学技术奖一等奖。目前担任 ACL, EMNLP, AAAI, TASLP 等顶级国际期刊会议的审稿人。

邮箱:yangtianlin@blcu.edu.cn
主页:https://tianlinyang.github.io

联系方式

王学姐 (1091300210)
孔学长 (asura0537)
方学长 (jasonfang3900)