我院博士研究生李琛和导师余建兴副教授课题组与腾讯联合推出HPSU:语音大模型“人类级”感知能力评测基准

发布人:高旭

       近日,中山大学人工智能学院博士研究生李琛同学在其导师余建兴副教授及其课题组的指导下,与腾讯合作共同推出了HPSU(Human-level Perception in Spoken Speech Understanding)基准。这是一个专注于评估语音大语言模型在真实场景中实现类人级听觉感知与深度理解能力的大规模基准,对推动语音大语言模型向人类水平的认知能力发展具有重要意义。相关研究论文《HPSU: A Benchmark for Human-Level Perception in Real-World Spoken Speech Understanding》已被会议 AAAI 2026接收。

       近年来,语音大模型在自动语音识别等基础任务上取得了显著进展。然而,人类的听觉感知远超单纯的转录,更在于能从语气、停顿和语境中深度捕捉潜在意图与隐性情绪。现有的评估基准多局限于粗粒度的任务或文本推理,难以全面衡量模型在真实、复杂口语环境下的综合感知能力。为填补这一空白,该研究推出了 HPSU基准。HPSU 是首个针对真实世界口语理解的人类级感知基准,包含超过 20,000 个经过人类验证的中英文样本,构建了涵盖 16 个任务的评估框架。通过对 13 个主流模型的评估,结果揭示了现有系统与人类之间存在显著的性能差距,尤其在深层推理和抵御提示语偏见方面。作为首个针对真实世界口语理解的人类级感知基准,HPSU 量化了模型与人类在多语言环境和复杂推理层面的差距。

会议介绍

人工智能促进协会(Association for the Advancement of Artificial Intelligence, AAAI)是人工智能领域的综合性顶级国际学术会议(CCF-A,2026年中稿率17.6%),每年举办一次。会议聚焦于机器学习、自然语言处理、计算机视觉及跨学科交叉等前沿技术的深度探讨。

我院始终将服务国家战略和区域发展需求作为研究生培养的根本导向,积极引导学生将产业一线实践转化为高水平论文选题。未来,学院将进一步深化产学研协同机制,着力构建更具活力、更富效能、更可持续的融合生态,致力于培养更多创新与实践能力突出的卓越人才,持续产出具有突破性和引领性的科技成果,为强国建设和民族复兴贡献力量。

主要作者介绍

- 李琛,中山大学人工智能学院 2025 级博士生,研究方向为可控语音合成与语音理解等。

- 余建兴,博士,中山大学副教授。广东省杰出青年项目获得者,CCF 杰出会员。主要方向为自然语言处理领域的对话问答、多模态生成、知识图谱、机器推理和情感分析等。