新闻丨我组论文被CCL 2023录用
第二十二届中国计算语言学大会(The 22nd China National Conference on Computational Linguistics, CCL 2023) 将于2023年8月3-5日在黑龙江省哈尔滨市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议,是中国最大的自然语言处理学者和专家的社区。我组论文《人工智能生成语言与人类语言对比研究 ——以ChatGPT为例》被大会录用,作者为朱君辉、王梦焰、杨尔弘、聂锦燃、王誉杰、岳岩、杨麟儿。以下是论文相关介绍。
论文摘要
基于自然语言生成技术的聊天机器人ChatGPT能够快速生成回答,但目前尚未对机器作答所使用的语言与人类作答语言在哪些方面存在差异进行充分研究。本研究提取并计算159个语言特征在人类和ChatGPT对中文开放域问题作答文本中的分布,使用随机森林、逻辑回归和支持向量机(SVM)三种机器学习算法训练人工智能探测器,并评估模型性能。通过对比分析,研究揭示了两种文本在描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的语言表现的优势和不足。实验结果表明,随机森林和支持向量机(SVM)均能达到较高的分类准确率。结果显示,两种文本之间的差异主要集中在描述性特征、字词常用度、字词多样性三个维度。
背景介绍
近年来,人工智能在自然语言生成领域取得了长足的进展,特别是在机器翻译、对话生成和文章摘要等任务中,机器生成的语言已经达到了一定的准确性和自然度,并且具备了自己的语言风格。其中,基于神经网络的自然语言生成模型——如ChatGPT系列,已成为当今最流行的自然语言处理技术之一。
虽然机器生成的语言在语法与逻辑性方面越来越接近于真实语言,但与人类真实语言相比,机器生成的文本在词汇、句法结构、衔接关系等具体语言特征的使用方面仍存在着一些明显的差异。分析这些语言特征的差异对于提高语言模型生成自然语言的准确性和真实性,以及认识人类智能与人工智能的区别至关重要。
语言特征的提取与分析能够有效揭示文本中存在的语言规律,广泛应用于体裁分析和语言习得研究。目前研究者们主要聚焦于使用预训练语言模型探测人工智能生成的文本,在一定程度上缺乏可解释性。采用经典特征工程的研究范式建立机器学习模型,操作简便、易于落地,并且能够直观地解释语言特征在其中的作用,仍具有其独特的价值和作用。
主要工作
有鉴于此,我们选取选取开放域(不区分专业领域)下6586篇分别由人类与ChatGPT作答的平行语料,借助中文CTAP工具与Python编程语言对二者语言特征进行量化,训练分类模型并选出预测力较强的特征,从各个维度研究ChatGPT生成文本与人类语言的差异。
结论
机器学习方法的分类准确率
本文属于文本分类任务。选取研究者使用较多的逻辑回归、SVM、随机森林三种经典文本分类算法构建分类模型。
其中,随机森林和SVM均能达到较高的分类准确率。使用经典的机器学习方法进行人机语言分类是可行的。
多维语言特征对比
我们对描述性特征、字词常用度、字词多样性、句法复杂性、篇章凝聚力五个维度159项特征依次展开分析(详见论文内容)。结论如下:
1.ChatGPT生成语言倾向于使用大词,往往分段进行阐述生成长文本,人类的回答更加简短,自然段少。在一定程度上,ChatGPT生成的文本难度与质量高于人类的回答。人类具有生成更为复杂和详尽句子的能力与使用较多的笔画数汉字的能力,长短句的使用更加灵活多变。
2.人类的用词偏好有助于丰富语言表达(词汇多样性高)并降低文本理解难度(高频词和实词使用频率高),富有口语色彩。ChatGPT生成的语言中语法标记明显,倾向于书面语的表达方式。在同样篇幅的文本中,人类提供的信息量更大。整体来看,ChatGPT所体现出的语言特征更具英文偏好,比如和英文一样,ChatGPT倾向于使用介词、助词等修饰性较强的成分,这可能与训练语料大多是英语有关。
3.ChatGPT倾向于运用修饰性和概念性较强的表达方式,在句法结构复杂性方面往往高于人类撰写的文本。人类回答具有较强的交互性,倾向于使用简单的句子结构和句法成分。但面对难以简短回复的问题,也具备使用句法结构较为复杂的长句的语言能力。
4.ChatGPT在指称、重复上优于要优于人类文本,词语的重复性较多,语义重叠度高,生成的回答围绕同一主题展开。人类思维活跃,容易给出发散式的回答。
展望
根据本文的研究结论可推断出,ChatGPT在中文使用上的表现与人类具有较大差异。为了使人工智能生成语言更加真实,高质量的中文数据集建设与大语言模型研究迫在眉睫。我们的研究详细分析了ChatGPT生成语言与人类语言在多个维度上的差异,但也存在一些局限。首先,本研究中仅选择了人工智能生成语言和人类语言开放域的问答语料,样本量相对较小,未来的研究中可以使用更多包含不同语域与不同语体的数据集。其次,本研究中使用GPT-3.5作为底层模型的ChatGPT,若使用更先进的模型(如GPT-4),这些语言特征的表现可能会有所不同。