新闻 | BLCU-ICALL新生见面会
9月28日上午,我组举行了新生见面会,由博士生,三年级硕士生为研一新生分享学习方法与科研心得,并介绍组内具体研究方向。
新生入学礼包
首先博士生孔存良介绍了本组wiki的使用,并分享了作为研究生如何提问、如何发送邮件、如何准备组会汇报、文献检索与阅读的心得与经验。
- 提问前
在我们的 wiki 中尝试找到答案
尝试上网搜索以找到答案
尝试阅读官方文档或手册找到答案
如果是代码相关的问题,请尝试阅读源代码以找到答案
- 提问时
提供精确、有内容的信息,但是不要将成堆的出错代码或者资料 copy 到你的问题中
描述问题症状而非你的猜测
清楚明确的表达你的问题以及需求
询问有关代码的问题时,不要贴一段代码,说“这段代码看起来有问题”,或者“它运行不正确”,而是应该贴一部分关键代码,然后表明“这里我希望看到的 ,但是实际出现的是 ……”
提问时注意礼节
问题解决后,加个简短的补充说明
然后,研三同学方雪至分享了NLP入门经验,崔悦分享了作为文科生文科生如何入门语言信息处理的经验。
- 学习内容(文科)
编程语言:Python
最低要求:会用Python基础语法计算词频等,调用corenlp进行分词、词性标注等;会调用pandas进行数据处理(数据清洗等)
进阶要求:会爬虫、会用sklearn调用现有机器学习模型
- 科研
明确方向,可以先跟着师兄师姐进行研究,在研究学习中寻找自己感兴趣的方向
多看文献,特别是刊载前沿研究的国际会议、期刊的文献,许多英文文献提出的任务和方法比较新颖,可以提供借鉴和启发
通过老师、师兄、师姐推荐、看已有文献的作者之前做过的类似研究、看已有文献的参考文献查找与自己研究方向有关的文献
多与老师交流讨论
- 心态
面对一个新领域,学得不太明白,不太清楚很正常,不必过于焦虑
Python的学习是一个熟能生巧的过程,了解基础语法后,多写多练一定会有提升,不必太过着急
对于文科生来说,Python、语言模型只是服务于语言学研究的工具,明白其功能并且会使用即可,不必苛求自己一定要了解背后原理或要对其进行创新
摆正心态,不断学习,必定收获满满!
ICALL具体研究方向
接下来分别由各位博士生和三年级硕士生为新生介绍组内具体的研究方向。
- 语言监测
语言资源建设—工作基础
年度语言生活调查—语言监测的工程性任务
语言监测的理论与技术研究
提供数据资源服务
- 语法改错
旨在借助计算机,自动将存在语法偏误的句子修改为语法正确的句子,以帮助汉语学习者提升汉语能力,并且减轻汉语教师的作业批改负担,主要包括数据资源建设、核心算法开发 及辅助写作平台建设
详见:
汉语学习者语料库标注平台
英文写作新神器—文心·写作
基于Transformer增强架构的中文语法纠错
面向汉语二语学习的个性化语法纠错
- 释义生成
任务定义为“给定词语及其词向量,生成相应的一句文本释义”
详见:
语言学习新助力:“文心·词典”系统
基于门控上下文感知网络的词语释义生成方法
基于BERT与柱搜索的中文释义生成
- 词汇受限文本生成
任务定义为“给定关键词生成句子”,可应用于辅助语言学习的例句生成、词典中的例句生成、广告生成、关键词生成文本
- 拼写检查及校对
任务定义为“给定一个包含字符的序列X为模型的输入,输出为修改结果序列Y(等长)”。中文文本校对的应用范围较广,例如出版社校对、文章纠错、OCR识别纠错等,可节省大量的人力物力成本;中文文本校对在汉语教育领域有可观的应用前景,可协助教师进行作文批改、帮助学生自查,提高教学效率。另外,也可以辅助教材编写后的校对工作
- 汉语句式结构自动分析研究
构建句式结构句法分析器,为给定句子自动生成其句式结构,可以为教材语料提供自动解析工具、为语料库的构建提供更加便捷的方式
- 文本复杂度研究及CTAP平台
目的是给一篇文本或一个句子划定难度等级,既可以服务于汉语教师,帮助教师筛选适合不同等级或不同年级学生的阅读材料,在一定程度上也可反映学生的写作水平
- 学术英语写作
学术英语,又称学术用途英语(English for Academic Purposes,EAP),泛指学术语境下开展各类学习和交流所需的英语。学术英语写作研究作为学术英语、写作研究的一个重要分支,考察的对象主要是学术语篇与相关写作实践活动。对于学术英语写作有两个研究路径,一是系统功能语言学(SFL)视域下的研究,旨在考察学术话语社团的文本特征以及学科共性与差异。二是学术语言能力理论(AL)视域下的研究,具体可探究写作认知过程、二语作者的学术写作以及教学策略、教学资源手段的开发运用
- 汉语学习者依存句法标注
制定适用于汉语学习者语料的标注规范
从HSK动态作文语料库中筛选出带语法偏误信息的语料
搭建了在线标注平台,通过人机结合的方式,对分词、词性和依存句法进行标注
详见: 汉语学习者依存句法树库构建