新闻 | 我组在BEA 2025 Shared Task上斩获佳绩

2025-05-06 编辑:朱浩楠

关于BEA

BEA(Building Educational Applications)研讨会是自然语言处理(NLP)在教育应用领域创新的领先平台,是ACL社区中规模最大的单日研讨会之一。第20届自然语言处理在教育应用创新研讨会(20th Workshop on Innovative Use of NLP for Building Educational Applications,简称BEA 2025)将于2025年7月31日至8月1日在奥地利维也纳举行,与国际计算语言学大会(ACL) 2025大会联合举办。本届BEA研讨会将是首次作为两天的研讨会举办。

研讨会将设有主题演讲,并设有主要研讨会环节,包括口头报告环节和大型海报展示环节,以便广泛展示原创研究。此外,还将举办半天的教程以及共享任务,包括共享任务组织者进行的口头概述报告以及共享任务参与者的海报展示。

关于BEA共享任务

BEA 2025 Shared Task主题为“人工智能助教教学能力评估(Pedagogical Ability Assessment of AI-powered Tutors)”,是一项专注于评估人工智能(AI)助教教学能力的效果和水平。该任务旨在通过一系列标准化的评估指标,测试和衡量基于大型语言模型(LLM)的 AI 助教在数学教学对话中的表现。本届共享任务吸引了来自香港大学、北京交通大学、松鼠AI、Endless AI等的将近五十支队伍参与。

BEA 2025 Shared Task的核心目标是开发一套能够全面评估 AI 助教对话质量的指标体系。该任务不仅关注 AI 助教是否能够生成自然流畅的对话,更注重其是否具备真正意义上的教学能力,例如能否识别学生的错误、提供有针对性的指导以及引导学生进行有效的学习。本届共享任务聚焦于数学领域的教育对话,特别是针对学生在解题过程中出现的错误或困惑,评估AI教师是否完成了准确的识别并进行了有效的指导。

BEA 2025 Shared Task包含五个独立赛道,分别是:[Track 1] Mistake Identification:AI 教师是否能够识别学生在回答中的错误;[Track 2] Mistake Location:AI 教师是否能够准确指出错误的位置;[Track 3] Providing guidance:AI 教师是否能够提供正确且相关的指导;[Track 4] Actionability:AI 教师的反馈是否清晰地指出了学生下一步应该做什么;[Track 5] Guess the tutor identity:通过对话内容猜测回应是由哪位导师生成的。

BEA 2025 Shared Task任务描述

所用方法

本次比赛中,针对本届共享任务中不同赛道的任务和数据特点,团队分别使用了上下文学习(In-Context Learning,ICL)、集成学习(Ensemble Learning)、监督微调(Supervised Fine-tuning, SFT)、组相对策略优化(Group Relative Policy Optimization, GRPO)等方法。详细技术方案将整理成为技术报告并发表于BEA 2025。