杨尔弘
教授, 博士生导师
语言资源高精尖创新中心
邮箱: yangerhong@blcu.edu.cn
语言资源高精尖创新中心
邮箱: yangerhong@blcu.edu.cn
个人介绍
杨尔弘,1965年生,女,工学硕士、文学博士学位,北京语言大学教授、博士生导师,语言资源高精尖创新中心常务副主任,国家语言资源监测与研究中心平面媒体语言分中心主任,兼任《中文信息学报》副主编。
研究领域
语言信息处理,语言监测,语言资源建设
教育背景
1982-1986 山西大学计算机科学系,计算机应用技术专业,工学学士
1986-1989 山西大学计算机科学系,计算机应用技术专业,工学硕士
2001-2005 北京语言大学应用语言学研究所,语言学及应用语言学专业,文学博士
工作经历
1989-2005 山西大学计算机系
2005-至今 北京语言大学国家语言资源监测与研究中心平面媒体语言分中心
2014-2018 北京语言大学信息科学学院
2016-至今 语言资源高精尖创新中心
主要论文
- Liner Yang, Chengcheng Wang, Yun Chen, Yongping Du, Erhong Yang. 2021. Controllable Data Synthesis Method for Grammatical Error Correction. Frontiers of Computer Science (FCS).
- 范齐楠, 孔存良, 杨麟儿, 杨尔弘. 基于BERT与柱搜索的中文释义生成. 2020. 第十九届中国计算语言学大会 (CCL2020)
- 张生盛, 庞桂娜, 杨麟儿, 王辰成, 杜永萍, 杨尔弘, 黄雅平. 面向汉语作为第二语言学习的个性化语法纠错. 2020. 第十九届中国计算语言学大会 (CCL2020)
- 师佳璐, 罗昕宇, 杨麟儿, 肖丹, 胡正升, 王一君, 袁佳欣, 余婧思, 杨尔弘. 汉语学习者依存句法树库构建. 2020. 第十九届中国计算语言学大会 (CCL2020)
- Liner Yang, Cunliang Kong, Yun Chen, Yang Liu, Qinan Fan, Erhong Yang. 2020. Incorporating sememes into chinese definition modeling. IEEE/ACM Transactions on Audio, Speech, and Language Processing. (SCI一区)
- 张海同, 孔存良, 杨麟儿, 何姗, 杜永萍, 杨尔弘. 2020. 基于门控化上下文感知网络的词语释义生成方法. 中文信息学报.
- 肖丹, 杨尔弘, 张明慧, 陆天荧, 杨麟儿. 2020. 汉语中介语的依存句法标注规范及标注实践. 中文信息学报.
- 王辰成, 杨麟儿, 王莹莹, 杜永萍, 杨尔弘. 2020. 基于Transformer增强架构的中文语法纠错方法. 中文信息学报.
- 杨尔弘, 陆天荧, 崔悦, 方雪至. 2019. 流行语里的中国与世界,《中国语言生活状况报告2020》. 商务印书馆.
- 杨尔弘, 肖丹, 陈芳宇, 陆天荧. 2018. 流行语里的中国与世界,《中国语言生活状况报告2019》. 商务印书馆.
- Binjie Meng, Lei Hou, Erhong Yang, Juanzi Li. 2018. Metadata Extraction for Scientific Papers. In Proceedings of CCL 2018. (EI检索)
- 杨尔弘, 刘鹏远, 韩林涛, 饶高崎. 2017. 语言智能那些事儿,《中国语言生活状况报告2018》. 商务印书馆.
- 杨尔弘, 孔存良, 张明慧. 2017. 流行语里的中国与世界,《中国语言生活状况报告2018》. 商务印书馆.
- Alaa Mamdouh Akef, Yingying Wang, Erhong Yang. Construction of a Database of Parallel Phrases in Chinese and Arabic. In Proceedings of CLSW 2017. (EI检索)
- Alaa Mamdouh Akef, Yingying Wang, Erhong Yang. Arabic Collocation Extraction Based on Hybrid Methods. In Proceedings of CCL2017 (EI检索)
- 韩林涛, 杨尔弘. 2016. 2016年的机器翻译,《中国语言生活状况报告2017》. 商务印书馆.
- 杨尔弘, 冯诚, 王莹莹. 2016. 流行语里的中国与世界.《中国语言生活状况报告2017》. 商务印书馆.
- 杨尔弘, 张肯. 2015. 流行语里的中国与世界,《中国语言生活状况报告2016》. 商务印书馆.
- Jingxuan Guo, Erhong Yang. 2015. A Study on the Lexicalization of Combined Idioms in Mencius. In Proceedings of CLSW 2015. (EI检索)
- 侯敏, 杨尔弘. 2015. 中国语言监测研究十年. 语言文字应用.
- 杨尔弘, 张肯, 2014. 流行语里的中国与世界, 《中国语言生活状况报告2015》. 商务印书馆.
- 刘冬明, 杨尔弘. 2015. 个性化知识表示. 计算机工程与应用.
- 侯敏, 杨尔弘. 2015. 中国语言监测研究十年. 语言文字应用.
- 刘冬明, 杨尔弘. 2015. 话题内相关文本的内容计算. 中文信息学报.
- 杨尔弘, 李彦燕. 2014. 通用规范汉字使用情况调查, 《中国语言生活状况报告2014》. 商务印书馆.
- 刘冬明, 杨尔弘. 2014. 量化词语的领域特征. 中文信息学报.
- 李艳娇, 杨尔弘. 2014. 基于语料库的“和、与、同、跟”使用分布考察. 语言教学与研究.
- 庞宁, 杨尔弘. 2014. 多种语义特征在突发事件新闻中的共指消解研究. 中文信息学报.
- 杨尔弘, 李彦燕, 王磊. 2013. 流行语里的中国与世界, 《中国语言生活状况报告2014》. 商务印书馆.
- Erhong Yang. 2013. Chinese Buzzwords(2002-2006), The Language Situation in China. The Commercial Press.
- Erhong Yang. 2013. A survey of Chinese characters, words and phrases used in news media. The Language Situation in China. The Commercial Press.
- 王磊, 杨尔弘, 王佳. 2012. 2012年度媒体流行语,《中国语言生活状况报告2013》. 商务印书馆.
- 杨尔弘, 李盛, 王磊. 2012. 2012年度媒体用字用语调查,《中国语言生活状况报告2013》. 商务印书馆.
- 徐琳, 杨尔弘, 张昭田, 秦玉文. 2012. 信息领域优秀青年科学基金项目申请受理与资助情况分析. 中国基础科学.
- 王磊, 杨尔弘. 2011. 2011年度媒体流行语,《中国语言生活状况报告2012》. 商务印书馆.
- 杨尔弘, 王文媛, 王磊. 2011. 2011年度媒体用字用语调查,《中国语言生活状况报告2012》. 商务印书馆.
- 杨尔弘, 曾青青, 李婷婷. 2012. 文本事件信息结构分析. 中文信息学报.
- 李艳娇, 杨尔弘. 2012. 树库中的歧义考察. 中文信息学报.
- 王治敏, 杨尔弘. 2012. 面向汉语教学的常用动词计量研究. 语言教学与研究.
- 杨尔弘. 2011. 媒体5年词语使用情况调查分析. 北华大学社会科学学报.
- 曾青青, 杨尔弘. 2011. 事件词驱动的文本事件信息结构初探, 《中国计算语言学研究前言进展(2009-2011)》, 清华大学出版社.
- 李艳娇, 杨尔弘. 2011. 树库中的歧义考察, 《中国计算语言学研究前言进展(2009-2011)》. 清华大学出版社
- 李艳娇, 杨尔弘. 2010. 2010年度媒体流行语, 《中国语言生活状况报告2011》. 商务印书馆.
- 杨尔弘, 陈雪. 2010. 2010年度媒体用字用语调查, 《中国语言生活状况报告2011》. 商务印书馆.
- 杨尔弘. 2010. 支持语言监测的海量数据处理技术. 术语标准化与信息技术.
- Hongjian Zou, Erhong Yang, Yan Gao, Qingqing Zeng. 2010. The Annotation of Event Schema in Chinese. In Proceedings of the Eighth Workshop on Asian Language Resouces.
- Erhong Yang, Qingqing Zeng, Danqing Zhu. 2010. Analysis about Event Annotation and Information Structure in Sudden Events Discourse. In proceedings of International Conference on Natural Language Processing and Knowledge Engineering.
- 曾青青, 杨尔弘. 2010. 中国主流媒体流行语的特性分析. 语言文字应用.
- 曾青青, 杨尔弘. 2009. 事件标注及突发事件文本内容分析, 中国计算语言学研究前沿进展, 清华大学出版社.
- 曾小兵, 张志平, 刘荣, 杨尔弘, 张普. 2008. 《中国语言生活状况报告》中成语与习语的调查与思考. 中文信息学报.
- 庞宁, 杨尔弘, 2008. 基于最大熵模型的共指消解研究. 中文信息学报.
- 邹红建, 杨尔弘. 2007. 以事件标注为核心的语篇标注研究. 计算机科学.
- Hongjian Zou, Erhong Yang. 2007. Event Counts as Elementary Unit in Discourse Annotation. Recent Advance of Chinese Computing Technologie
- 杨尔弘, 邹红建. 2007. 面向内容计算的意义单元标注研究. 内容计算的研究与应用前沿.
- 王铁琨, 侯敏, 杨尔弘. 2007. 报纸、广播电视、网络媒体用字用词调查. 语言文字应用.
- 苏新春, 杨尔弘. 2006. 2005年度汉语词汇统计的分析与思考. 厦门大学学报(哲学社会科学版).
- 杨尔弘, 方莹. 2006. 突发事件信息抽取中的模式自动获取. 中文信息处理前沿进展.
- 杨尔弘, 方莹, 刘冬明, 乔羽. 2006. 汉语分词语词性标注评测. 中文信息学报.
- 顾雪峰, 杨尔弘. 2006. 动态粒度在实体关系识别中的应用. 山西大学学报.
- 赵国荣, 杨尔弘. 2006. 基于规则的事件时间短语识别. 山西大学学报.
- 赵国荣, 杨尔弘, 事件类时间短语的识别. 2005. 全国第八届计算语言学联合学术会议.
- 方莹, 杨尔弘. 2005. 基于多特征的句子聚类方法研究. 全国第八届计算语言学联合学术会议.
- 张涛, 杨尔弘. 2005. 基于上下文词语同现向量的词汇语义相似度计算. 电脑开发与应用.
- 乔羽, 杨尔弘. 2005. 基于最大熵模型的中文人名识别. 电脑开发与应用.
- 方莹, 杨尔弘. 2005. 计算大规模语料中四字词串互信息的算法设计. 电脑开发与应用.
- 乔羽, 杨尔弘. 2004. 中文人名识别. 山西大学学报.
- 郝秀兰, 杨尔弘. 2004. 基于小规模语料库和机器刻度词典的二元分布语义获取. 中文信息学报.
- 刘冬明, 赵军, 杨尔弘. 2003. 汉英双语语料库中名词短语的自动对应. 中文信息学报.
- 杨尔弘, 李盛. 2003. 面向真实文本的汉语词义排歧模型研究. 全国第七届计算语言学联合学术会议.
- Erhong Yang, Sheng Li. 2003. WSD Model Research Based on Interaction of Knowledge about Chinese Real Text. In Proceedings of the 7th Internatioal Confereence for Young Computer Scientists.
- 杨尔弘, 郝秀兰, 李盛. 2002. 基于粗糙集的汉语动词排歧知识的获取. 中文信息学报
- 杨尔弘, 米丽萍, 郝秀兰. 2001. 基于HowNet的词义排起方法研究. 中文信息处理20周年会议论文集.
- Erhong Yang, Guoqing Zhang, Yongkui Zhang. 2020. In Second Chinese Language Processing Workshop.
- 郝秀兰, 杨尔弘. 2001. 基于HowNet的语义角色特征提取. 中文信息学报.
- 杨尔弘, 张国清, 张永奎. 2001. 基于义原同现矩阵的词义排歧方法. 计算机研究与发展.
参编著作
- Erhong Yang, Endong Xun, Baolin Zhang, Gaoqi Rao. Proceedings of the 6th Workshop on Natural Language Processing Techniques for Educational Applications. 2020. ISBN 978-1-952148-99-6
- Erhong Yang, Le Sun. Proceedings of the LREC2018 Workshop “Belt & Road: Language Resources and Evaluation”. 2018.5.8. Miyazaki, Japan. Organized by Beijing Advanced Innovation Center for Language Resources. ISBN 979-10-95546-29-0. EAN 9791095546290.
- 李宇明主编, 杨尔弘、侯敏撰写第十四章“语言信息处理研究”, 《当代中国语言学研究》(1949-2015), 中国社会科学出版社, 2016,9. ISBN 978-7-5161-8698-5.
- 候敏, 杨尔弘主编. 2011汉语新词语, 商务印书馆, 2012.11. ISBN 978-7-100-09288-3.
- 杨尔弘, 邢红兵, 甘瑞瑗主编. 动态流通语料库及语言知识获取, 北京出版集团公司北京出版社, 2011.12. ISBN 978-7-200-08999-8.
- 宋继华, 杨尔弘, 王强军. 中文信息处理教程, 高等教育出版社, 2011.6. ISBN 978-7-04-031896-8.
参编中国语言生活状况报告
- 国家语言文字工作委员会组编, 郭熙主编,候敏、杨尔弘、周洪波副主编,《中国语言生活状况报告2020》, 2020,5. ISBN 978-7-100-18403-8.
- 国家语言文字工作委员会组编, 郭熙主编,候敏、杨尔弘、周洪波副主编,《中国语言生活状况报告2019》, 2019,5. ISBN 978-7-100-17506-7.
- 国家语言文字工作委员会组编, 郭熙主编,候敏、杨尔弘、周洪波副主编,《中国语言生活状况报告2018》,商务印书馆,2018,5. ISBN 978-7-100-16122-0.
- 国家语言文字工作委员会组编, 郭熙主编,候敏、杨尔弘、周洪波副主编,《中国语言生活状况报告2017》,商务印书馆,2017,5. ISBN 978-7-100-13979-3.
- 教育部语言文字信息管理司组编, 郭熙主编,候敏、杨尔弘、周洪波副主编,《中国语言生活状况报告2016》,商务印书馆,2016,5. ISBN 978-7-100-12261-0.
- 教育部语言文字信息管理司组编, 郭熙主编,候敏、杨尔弘、周洪波副主编,《中国语言生活状况报告》2015,商务印书馆,2015,10 ISBN 978-7-100-11620-6
- 教育部语言文字信息管理司组编, 郭熙主编,候敏、杨尔弘、周洪波副主编,《中国语言生活状况报告》2014,商务印书馆,2014,08 ISBN 978-7-100-10695-5
- 教育部语言文字信息管理司组编,周庆生、候敏主编,郭熙、杨尔弘、周洪波副主编,《中国语言生活状况报告》2013,商务印书馆,2013,11 ISBN 978-7-100-10327-5
- 教育部语言文字信息管理司组编,周庆生、候敏主编,郭熙、杨尔弘、周洪波副主编,《中国语言生活状况报告》2012,商务印书馆,2012,12 ISBN 978-7-100-09591-4
- 教育部语言文字信息管理司组编,周庆生、侯敏主编,郭熙、杨尔弘、周洪波副主编:《中国语言生活状况报告2011》,商务印书馆,2011,12 ISBN 978-7-100-08572-4
- 王铁琨主编,侯敏、杨尔弘、苏新春、何婷婷、赵小兵副主编:中国语言生活绿皮书《中国语言生活状况报告2009》下编,商务印书馆,2010,9 ISBN 978-7-100-07311-0
- 王铁琨主编、侯敏、杨尔弘、苏新春、何婷婷副主编:中国语言生活绿皮书《中国语言生活状况报告2008》下编,商务印书馆,2009 ISBN 978-7-100-06700-3
- 王铁琨主编、侯敏、苏新春、杨尔弘、何婷婷副主编:中国语言生活绿皮书《中国语言生活状况报告2007》下编,商务印书馆,2008 978-7-100-05905-3
- 王铁琨主编、侯敏、苏新春、杨尔弘、何婷婷副主编:中国语言生活绿皮书《中国语言生活状况报告2006》下编,商务印书馆,2007,8 978-7-100-05477-
中国语言生活状况报告光盘数据
从2011年起,为年度《中国语言生活状况报告》提供媒体用字用语调查电子数据,并随中国语言生活状况报告一起发布。
每年的数据包括:
- 年度媒体用字总表
- 年度媒体高频词语表
- 年度媒体成语表
主持的科研项目
- 国家语言资源监测与研究,教育部语信司共建项目,按年度执行,2006年 - 至今
- 智能辅助汉语应用文写作研究,国家语委科研中心项目,2020年11月 - 至今
- 语言监测理论与计量方法研究(ZDI135-3),国家语委语委规划重点项目, 2015年12月 - 2019年5月
- 中国语言资源有声数据库建设建库规范,国家科技支撑计划子课题,2014BAK04B01,2014年9月 - 2016年9月
- 中国传统文化元素在现代媒体中的使用监测研究,校级重大,13ZDY03,2013年12月 - 2016年12月
- 信息领域青年科技人才资助状况研究,国家自然科学基金,61240001,2013年1月 - 2014年6月
- 报纸媒体语言文字使用规范状况调查,国家语委“十二五”科研规划2012年度委托项目,WT125-28,2012年12月 - 2014年6月
- 科技术语使用状况调研,全国科学技术名词审定委员会定向课题,2012年9月 - 2013年12月
- 媒体教育领域话题检测与话题库建设,国家语委“十二五”科研规划2011年度一般项目,YB125-43,2011年9月 - 2013年12月
- 限定领域中基于语义的内容管理关键技术及其应用,国家自然科学基金合作项目,2008年12月 - 2009年12月
- 面向语言监测的分词标注软件评价方法研究(YB115-03),国家语言文字应用“十一五”科研项目,2007年12月 - 2008年12月
- 面向内容计算的文本标注研究,国家社科基金,06Byy047,2006年7月 - 2012年12月31日
资源加工
负责组织加工了500万字的“中文分词标注语料”,共享于ChineseLDC。
荣誉奖项
- 2003年4月,山西省科技进步一等奖:“智能化中文信息处理及其应用技术研究”,排名第三。
- 2002年11月,山西省高等学校科技进步一等奖:“智能化中文信息处理及其应用技术研究”,排名第三。
- 2003年11月,山西省教学成果二等奖:“数据结构多媒体CAI的研究与建设”,排名第二。
开设课程
本科生课程:文本内容计算
研究生课程:语料库语言学(硕士)、计算语言学前沿(博士)
社会服务/学术兼职
《中文信息学报》副主编
北京智源人工智能研究院自然语言处理重大方向研究项目经理
国际交流
- 2019年12月,北京语言大学语言资源高精尖创新中心主办第三届语言资源与智能国际学术研讨会暨《万国语言志》编写启动会,担任“语言资源建设的开发与应用”圆桌论坛主持人;
- 2019年9月25日,俄罗斯科学院语言所著名语言学家、俄罗斯科学通讯院士弗拉基米尔·米哈伊洛维奇·阿尔帕托夫一行到访北京语言大学语言资源高精尖创新中心,参加由中心、中国语言资源保护研究中心联合召开的学术座谈会,杨尔弘教授作《语言资源建设的实践》主题报告;
- 2019年7月,参加在英国兰卡斯特大学召开的第十七届英国汉语教学研究会年会暨英国高校国际汉语教学大会,作《学习型词典释义的自动生成》报告;
- 2019年4月11日,参加在内蒙古呼和浩特市举行的首届“蒙古语言资源与共享技术”研讨会,作《保护和促进世界语言多样性》主旨报告。会议期间,杨尔弘教授与蒙古国科学院院士宝力德教授、内蒙古大学那顺乌日图教授进行座谈交流,三方探讨蒙古语言资源建设、蒙古国语言政策研究、阿尔泰语系研究等方面的合作;
- 2018年12月,北京语言大学语言资源高精尖创新中心与美国宾夕法尼亚大学语言数据联盟联合主办2018语言资源与智能国际学术研讨会,主持“语言资源与智能人才培养”专题论坛;
- 2018年5月,北京语言大学语言资源高精尖创新中心、中国中文信息学会联合组织的首届“一带一路”语言资源与评测研讨会(属于第11届语言资源与评测国际会议中的专题研讨会)在日本宫崎市成功举办。杨尔弘教授主持Workshop on the Belt and Road Language Resources and Evaluation。会议期间,与欧盟委员会通讯网络与技术司主任盖尔·肯特女士、欧盟委员会通讯网络与技术司多语服务部负责人马可·马塞拉先生,欧洲语言资源联盟荣誉主席、语言资源与评测国际会议主席尼古丽塔·卡罗拉女士、欧洲语言资源联盟秘书长凯莱德·考克博士进行了座谈,双方各自介绍了目前开展项目的情况,交流了对一带一路沿线国家、欧洲语言资源建设、技术开发的合作意向等;
- 2017年11月,受宾夕法尼亚大学语言数据联盟(LDC)邀请,到LDC访问,期间向LDC全体成员报告了语言资源建设得工作“Introduction to ACLR: Objective, Mission, and Projects”。
- 2017年7月,参加北京语言大学语言资源高精尖创新中心主办的“一带一路”语言资源与智能国际学术研讨会。
联系方式
邮箱:yerhong@blcu.edu.cn
办公电话:82303249
办公室:综合楼814室