DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

机器之心 2025-12-07 12:30
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估图1

近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。


AAAI 由国际人工智能促进协会(Association for the Advancement of Artificial Intelligence, AAAI)主办,是人工智能领域极具影响力的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的 A 类国际学术会议,在全球学术界和工业界具有广泛影响力。


本届会议共收到来自世界各地的投稿摘要 31000 篇,最终录用 4167 篇,录用率仅为 17.6%,创历史新低。


研究背景


情感支持是人类与人工智能交互的核心能力,现有的大语言模型(LLMs)评估往往依赖于简短、静态的对话,未能捕捉到情感支持的动态和长期性质。


对于大语言模型情感能力的评价是做好自研的关键,团队分析了情感支持对话(ESC)目前现状和存在的问题。随着大语言模型的进步,ESC 已从情绪识别和生成扩展到包括更广泛的以人为中心的任务,例如角色扮演、心理陪伴以及随意聊天。开发有效的情绪支持不仅能减少负面情绪,还能通过持续、高质量的互动帮助维持积极的情绪状态。


因此,团队提出了一套全新的、检测情感动态轨迹的评估框架(简称 ETrajEval),用于更加科学、系统地评估大语言模型在长期对话中提供情感支持的能力。


DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估图2



核心贡献


现有的评估方法增进了我们对语言学习模型情感能力的理解,但这些方法存在两个主要局限性: 


  1. 缺乏长期和动态的互动。

  2. 过分强调以模型为中心的响应质量。


为了更好地评估 LLMs 的情感支持能力,团队采用以用户为中心的视角,关注用户在整个交互过程中的情感轨迹。如果一个模型能够持续改善并稳定用户的情绪状态,则认为该模型具有情感支持能力。


基于心理学理论,团队提出的框架解决了以下关键问题。


  1. 构建了一个包含 328 个交互环境,以及环境中可能出现的影响人类情绪变化的 1152 个干扰事件,以模拟真实的情绪变化,并评估模型在不断演变的情境下的适应性。

  2. 利用基于心理学理论的情绪调节策略(例如情境选择和认知重评)来约束模型响应,从而鼓励符合已验证治疗原则的支持性行为。

  3. 模拟了涉及重复情绪干扰的长期动态交互。用户的情绪轨迹被建模为一阶马尔可夫过程,并应用因果调整的情绪估计来实现对情绪状态的无偏追踪。


基于此框架,团队提出了三个轨迹层面的指标:平均情绪水平 (BEL)、情绪轨迹波动 (ETV) 和情绪质心位置 (ECP)。这些指标共同表征了用户情绪状态的动态变化,并可作为评估情绪波动和稳定性的指标。


这些组件共同构成了一个动态评估框架,该框架由三大支柱组成:评估环境、动态交互和基于情感轨迹的指标


DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估图3


本文的主要贡献如下:


  1. 评估建模:提出了一种动态、长期的评估框架,该框架使用马尔可夫过程和因果调整估计来跟踪用户的情感轨迹。它引入了三个轨迹级指标(BEL、ETV 和 ECP),并包含了完整的理论论证。

  2. 数据集:构建了一个包含 328 个情绪情境和 1152 个干扰事件的大规模基准,并使用来自心理学的已验证的情绪调节策略来约束模型响应。

  3. 实验验证:通过对各类当前业界领先的模型进行广泛评估,发现它们在长期情感支持能力方面存在显著差异。本评估方法为开发更具情感支持的模型提供了可操作的见解。


实验与分析


DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估图4


DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估图5


BEL 的结果揭示了以下几个关键发现:


首先,顶级的开源模型和闭源模型在整体情感支持能力方面没有显著差异;


其次,专门为角色扮演设计的模型在维持用户积极情绪状态方面并未优于通用型语言学习模型 (LLM)。


第三,模型在英语对话中展现出比中文对话中显著更强的长期情感支持能力,大多数模型都能帮助用户在英语对话中维持更高的平均情绪水平。


最后,在具体策略应用方面,模型在根据用户状态动态调整英语对话策略方面存在不足;相反,在中文对话中,模型引导用户改变外部环境以改善情绪的策略应用明显较弱。


(一)情绪质心位置可视化


团队通过比较不同 LLM 的情感质心(根据经验转移模型计算得出的预期情感位置),进一步分析了它们的情感引导能力。M 如图所示,横轴(Cx) 代表轨迹的整体情绪积极性,而纵轴(Cy−Cx)捕捉了回合间的情绪集中度或一致性。


DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估图6


上图结果显示模型之间存在明显差异:表现最佳的模型,特别是那些 BEL 和 ETV 得分高的模型,均表现出较高的性能。


这些数值表明,模型在引导用户达到积极稳定的情绪状态方面具有强大的能力。相比之下,质心值较低的模型要么无法维持积极的情绪发展进程,要么用户情绪轨迹波动性更大。


值得注意的是,一些针对英语指令进行调整的模型(例如 ChatGPT-4o-Latest、kimi-K2-Preview)的质心定位优于其对应的中文模型,这表明不同语言的预训练和对齐方式在情绪调节策略上存在差异。


(二)情绪轨迹可视化


为了更直观地理解本文提出的评估框架,团队针对三种情绪干扰程度(0、1 和 3 次干扰事件)进行了可视化分析。


下图揭示了以下几点:(1)ETV 得分较高的模型能更有效地帮助用户从低落的情绪状态中恢复,这印证了团队之前的论断。(2)在没有干扰事件的情况下,这些模型可以在相对较短的时间内将用户的情绪恢复到中性水平。(3)多次干扰事件会降低情绪恢复的速度;然而,具有更强情绪支持能力的模型对这类干扰表现出更强的抵抗力。


DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估图7


(三)基于因果增强的情感修正估计


DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估图8


为了评估本文情感识别模型与人类感知的一致性并验证所提出的估计校准方法,团队构建了一个人工标注的多轮对话数据集。该数据集包含近 2000 个中英文多轮对话,这些对话选自 Daily Dialog 和 CPED 语料库。


团队邀请了三位专家标注员,在现有标注的基础上,对这些对话中每一轮的情感进行二元标注。详情请参考附录。如表 3 所示,团队的研究结果主要体现在两个方面:


首先,对比实验表明,团队提出的估计校准方法能够有效降低混杂因素的影响,从而提升模型的情感识别能力。应用本文提出的无偏估计方法后,不同模型的情感识别性能均得到提升。值得注意的是,与其他现有模型相比,本文的方法达到了目前最先进的水平


其次,本文的评估模型结合校准方法,与人类判断具有高度一致性,在中文对话上的准确率达到 75%,在英文对话上的准确率达到 90%


总结


本文提出了一种情感动态轨迹分析框架,用于评估语言模型的情感支持能力。该框架的核心在于模拟真实的用户 - 模型交互过程,通过构建背景上下文、引入多策略约束以及融入事件驱动的扰动来引导交互。


团队从三个角度设计了动态轨迹分析的评价指标,并利用因果推断来校准评估结果。实验结果表明,本文方法能够更全面、多维度地评估模型的情感支持能力,且与人类评估结果高度一致。


团队还带来了其他几个关联开源项目,欢迎交流与体验:


测评体系和框架:PQAEF



情感陪伴能力测评基准和数据集:MoodBench



趣丸开天情感陪伴大模型(8b)



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
EMI
more
投50亿美元,英伟达联手英特尔;谷歌将Gemini加入浏览器;网约车司机平均月入过万 | 极客早知道
SEMICON台湾技术论坛报告总结:AI时代半导体材料创新(四)方形晶圆、碳化硅衬底与先进封装的协同突破
台积电主导2025台湾半导体展,在SEMICON West上有什么新动作?
DeepSeek的小更新,暴打了OpenAI,追上了Gemini。
Google 年度最强 AI 偷跑!一个电风扇动画引发疯传,Gemini 3要给GPT-5.1上强度了
安疆电子发布TOLT封装IGBT新品,以高性价比破局车规功率半导体市场;通用汽车未来三年支持谷歌Gemini、脱手脱眼自动驾驶
SEMICON台湾技术论坛报告总结:AI时代半导体材料创新(八)材料驱动微缩化与AGC玻璃基板技术的战略前景
谷歌Gemini 3.0「全家桶」年度压轴,前端不再需要人类!下周王者降临
年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
马斯克Grok4Fast首发霸榜!2.5倍速秒杀GPT-5,成本暴降98%直追Gemini
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号