成果 | 中文文本分析平台CTAP全新升级

2023-12-23 编辑:朱浩楠

中文文本分析平台(Chinese Text Analysis Platform, CTAP)自2021年上线以来,收获了很多用户的喜爱,也收到了许多反馈。如今新版本的主要功能有:

语料库管理

语料库管理支持用户上传多个文件,并在平台上建立属于自己的语料库。用户可以通过创建文件夹来对语料库进行分类管理,然后创建语料库来储存上传的文本,可通过添加标签来对具体的文本做标记。

特征提取 不同于现有的分析工具,CTAP允许用户根据自己的研究目的创建特征集。首先,用户需要创建一个空的特征集,然后在现有的特征列表里选择复杂度特征加入到自己的特征集。在选择特征时,用户可点击“选择”按钮,通过选择具体的语言来提取特征,也可在搜索框输入所想要提取的特征。

语言特征分析

在选定语料和特征集后,可以通过“创建分析”生成分析结果并保存,也支持将分析结果以CSV格式下载到本地,进行进一步处理和分析。

结果可视化

可视化模块支持基本的绘图操作,可以帮助用户对分析结果进行可视化展示。

平台更多实用功能这里就不一一说明,想要了解更多或想立刻使用的朋友们请点击文末“阅读原文”参考CTAP用户手册。

再次感谢每一位用户对平台的支持和关心,CTAP的进步离不开每位用户的宝贵建议。

为进一步提高平台服务水平,满足各位用户的科研、教学需要,更好回馈学术界,我们不仅秉持永久免费的理念,还于近日对中文文本分析平台CTAP再次进行升级。本次主要更新的内容有:

推出中文版

旧版CTAP呈现语言为英语,中文用户在研究过程中,涉及到所用特征的名称时,往往需要边翻译边使用。为了方便中文用户更快、更简便地找到自己需要的内容,我们推出了中文版,包括对平台界面和特征名称进行汉化等。用户也可以通过点击上方的“中文/English”进行中文与英文版本切换。

增加国际中文教学语法点特征

为响应时代之需,促进国际中文教育的蓬勃发展,新版CTAP增加了25个国际中文教育语法点特征,将更好地辅助对外汉语教学及研究。更多信息请参见论文: 朱君辉, 刘鑫, 杨麟儿, 王鸿滨, 杨尔弘. 汉语语法点特征及其在二语文本难度自动分级研究中的应用. 语言文字应用, 2022,(03):87-99.

推动知识共享,促进学术交流

为促进学术界关于语言特征最新成果的交流,我们将免费提供主页位置,为用户展示和宣传您的科研成果,打造更前沿、更开放、更活跃的平台。欢迎各位用户私信公众号或在本篇推送留言区留下引用过CTAP发出的文章、成果,也可以扫描文末二维码填写相关内容。

关于CTAP

目前,中文文本分析平台 CTAP 已上线近200个中文语言特征,涉及到汉字、词汇、句子、篇章四个层面的语言单位,涵盖数量、密度、多样性、丰富度等多种计算维度。支持用户上传和管理个人的多级语料库、灵活组合各类语言特征、特征计算、结果可视化等。更多功能等你来探索。

网页链接:https://ctap.blcuicall.org

全新升级的CTAP,账号将实行实名申请制,经审核批准后免费使用。有意申请的用户请扫描文末二维码填写问卷,后续将统一发放。若问卷失效后仍有意愿申请,可以发送账号申请到blcuicall@163.com,账号将以邮件形式发送到您指定的邮箱内。

对CTAP感兴趣的朋友也可扫描文末二维码填写问卷调查,您的意见将对我们的研究起到重大作用。如果您在使用平台过程中有任何问题或建议,欢迎在公众号后台或微信群里联系我们,给出您的宝贵意见,我们将认真参考并不断改进,继续为大家提供一个更优质的语言特征计算平台。

声明:CTAP是非盈利组织,平台上任何功能都是不收费的,仅供用户个人学习使用,未经允许,严禁用户把在CTAP中所得的数据贩卖和传播。

如果您使用了本项目的内容,或者认为本项目对您的研究有帮助,请引用本项目:

Yue Cui, Junhui Zhu, Liner Yang, Xuezhi Fang, Xiaobin Chen, Yujie Wang, and Erhong Yang. 2022. CTAP for Chinese: A linguistic Complexity Feature Automatic Calculation Platform. In Proceedings of LREC 2022.