新闻 | 中文CTAP,汉语文本复杂度分析平台
文本复杂度与正确性、流利度是衡量语言水平的重要指标,常被用在二语习得领域的各项研究中。而在这三者之中,文本复杂度无疑是众多研究者关注和争论的焦点,但由于缺乏可用的计算工具进行复杂度特征的自动分析,一定程度上影响了前人研究中一些结论的可靠性及分析的进一步深入。基于此,我组与图宾根大学陈小彬教授团队合作推出了中文CTAP—汉语文本复杂度分析平台。
CTAP(Common Text Analysis Platform)是图宾根大学陈小彬教授团队研发的多语言文本复杂度特征抽取平台,该平台采用模块化的非结构化信息管理框架(UIMA),支持将不同语言分析模块添加到现有的系统结构中。目前,CTAP已经实现英语、德语、意大利语三种语言文本的特征分析,支持475个特征的提取与计算。除此之外,研究者也可以在此平台上进行跨语言文本复杂度分析研究。基于此,我们在CTAP开源平台的基础上,构建汉语复杂度特征体系,并研发适用于汉语的复杂性特征分析模块,且与原CTAP框架高度兼容。下面我们将对这一平台做具体介绍。
中文CTAP中的文本复杂度特征
目前,中文CTAP实现了包含字、词、句三个层面近百个复杂度特征。其中,字层面的特征主要包括字类数、字型数、字形例比及形例比的各种变体;词层面的特征主要包括词汇丰富度、词汇多样度、词性密度、词语复杂度四个维度;句层面的特征主要包括句子长度、句法成分数、句法复杂度三个维度。
中文CTAP的功能
中文CTAP平台主要由四个部分组成:语料库管理、特征提取、复杂度分析和结果可视化。
语料库管理
语料库管理支持用户上传多个文件,并在平台上建立属于自己的语料库。用户可以通过创建文件夹来对语料库进行分类管理,然后创建语料库来储存上传的文本,可通过添加标签来对具体的文本做标记。
特征提取
不同于现有的分析工具,中文CTAP允许用户根据自己的研究目的创建特征集。首先,用户需要创建一个空的特征集,然后在现有的特征列表里选择复杂度特征加入到自己的特征集。在选择特征时,用户可点击“select”按钮,通过选择具体的语言来提取特征,也可在搜索框输入所想要提取的特征。
复杂度分析
在选定语料和特征集后,可以通过Analysis Generator生成分析结果并保存,也支持将分析结果以CSV格式下载到本地,进行进一步处理和分析。
结果可视化
可视化模块支持基本的绘图操作,可以帮助用户对分析结果进行可视化展示。
与现有工具的比较
在汉语文本复杂度研究中,特征抽取工具较少,主要有周小兵教授团队开发的汉语分级阅读指难针、宋曜廷教授团队开发的CRIE(文本可读性指标自动化分析系统)、中文Coh-metrix和本文介绍的中文CTAP。相较于支持5个特征计算的指难针和39个不同特征计算的CRIE,中文CTAP可支持近百个特征的计算与抽取,满足了各种文本复杂度研究的需求。除此之外,我们对这四个工具进行了如下对比:
中文CTAP是一个复杂度特征丰富、代码开源且可扩展、用户友好型的多语言文本复杂度分析平台,利用该平台不但可以进行特定语言的文本复杂度分析研究,还可以进行跨语言文本复杂度分析。欢迎大家多多使用,多多反馈,共同推动文本复杂度研究的发展。
中文CTAP在线系统链接:
- http://ctap.litmind.ink
- http://ctap.wenmind.net
参考文献
- Chen, X. and Meurers, D. 2016. CTAP: A Web-Based Tool Supporting Automatic Complexity Analysis, Proceedings of the Workshop on Computational Linguistics for Linguistic Complexity.
- Housen, A., and Kuiken, F. 2009. Complexity, accuracy and fluency in second language acquisition, Applied Linguistics, 30(4):461–473.
- Sung Y T, Chang T H, Lin W C, et al. 2016. CRIE: An automated analyzer for Chinese texts. Behavior research methods, 48(4):1238-1251.
- 金檀、陆小飞、林筠、李百川. 2018. “汉语阅读分级指难针”. 广州:语言数据网 (http://languagedata.net/editor).