DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

AAAI 由国际人工智能促进协会（Association for the Advancement of Artificial Intelligence, AAAI）主办，是人工智能领域极具影响力的国际顶级学术会议之一，也是中国计算机学会（CCF）推荐的 A 类国际学术会议，在全球学术界和工业界具有广泛影响力。

本届会议共收到来自世界各地的投稿摘要 31000 篇，最终录用 4167 篇，录用率仅为 17.6%，创历史新低。

研究背景

情感支持是人类与人工智能交互的核心能力，现有的大语言模型（LLMs）评估往往依赖于简短、静态的对话，未能捕捉到情感支持的动态和长期性质。

对于大语言模型情感能力的评价是做好自研的关键，团队分析了情感支持对话（ESC）目前现状和存在的问题。随着大语言模型的进步，ESC 已从情绪识别和生成扩展到包括更广泛的以人为中心的任务，例如角色扮演、心理陪伴以及随意聊天。开发有效的情绪支持不仅能减少负面情绪，还能通过持续、高质量的互动帮助维持积极的情绪状态。

因此，团队提出了一套全新的、检测情感动态轨迹的评估框架（简称 ETrajEval），用于更加科学、系统地评估大语言模型在长期对话中提供情感支持的能力。

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估图2

论文地址：https://arxiv.org/abs/2511.09003v1
项目代码：https://github.com/QuwanAI/ETrajEval

核心贡献

现有的评估方法增进了我们对语言学习模型情感能力的理解，但这些方法存在两个主要局限性：

缺乏长期和动态的互动。
过分强调以模型为中心的响应质量。

为了更好地评估 LLMs 的情感支持能力，团队采用以用户为中心的视角，关注用户在整个交互过程中的情感轨迹。如果一个模型能够持续改善并稳定用户的情绪状态，则认为该模型具有情感支持能力。

基于心理学理论，团队提出的框架解决了以下关键问题。

构建了一个包含 328 个交互环境，以及环境中可能出现的影响人类情绪变化的 1152 个干扰事件，以模拟真实的情绪变化，并评估模型在不断演变的情境下的适应性。
利用基于心理学理论的情绪调节策略（例如情境选择和认知重评）来约束模型响应，从而鼓励符合已验证治疗原则的支持性行为。
模拟了涉及重复情绪干扰的长期动态交互。用户的情绪轨迹被建模为一阶马尔可夫过程，并应用因果调整的情绪估计来实现对情绪状态的无偏追踪。

基于此框架，团队提出了三个轨迹层面的指标：平均情绪水平 (BEL)、情绪轨迹波动 (ETV) 和情绪质心位置 (ECP)。这些指标共同表征了用户情绪状态的动态变化，并可作为评估情绪波动和稳定性的指标。

这些组件共同构成了一个动态评估框架，该框架由三大支柱组成：评估环境、动态交互和基于情感轨迹的指标。

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估图3

本文的主要贡献如下：

评估建模：提出了一种动态、长期的评估框架，该框架使用马尔可夫过程和因果调整估计来跟踪用户的情感轨迹。它引入了三个轨迹级指标（BEL、ETV 和 ECP），并包含了完整的理论论证。
数据集：构建了一个包含 328 个情绪情境和 1152 个干扰事件的大规模基准，并使用来自心理学的已验证的情绪调节策略来约束模型响应。
实验验证：通过对各类当前业界领先的模型进行广泛评估，发现它们在长期情感支持能力方面存在显著差异。本评估方法为开发更具情感支持的模型提供了可操作的见解。

实验与分析

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估图4

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估图5

BEL 的结果揭示了以下几个关键发现：

首先，顶级的开源模型和闭源模型在整体情感支持能力方面没有显著差异；

其次，专门为角色扮演设计的模型在维持用户积极情绪状态方面并未优于通用型语言学习模型 (LLM)。

第三，模型在英语对话中展现出比中文对话中显著更强的长期情感支持能力，大多数模型都能帮助用户在英语对话中维持更高的平均情绪水平。

最后，在具体策略应用方面，模型在根据用户状态动态调整英语对话策略方面存在不足；相反，在中文对话中，模型引导用户改变外部环境以改善情绪的策略应用明显较弱。

（一）情绪质心位置可视化

团队通过比较不同 LLM 的情感质心（根据经验转移模型计算得出的预期情感位置），进一步分析了它们的情感引导能力。M 如图所示，横轴（Cx) 代表轨迹的整体情绪积极性，而纵轴（Cy−Cx）捕捉了回合间的情绪集中度或一致性。

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估图6

上图结果显示模型之间存在明显差异：表现最佳的模型，特别是那些 BEL 和 ETV 得分高的模型，均表现出较高的性能。

这些数值表明，模型在引导用户达到积极稳定的情绪状态方面具有强大的能力。相比之下，质心值较低的模型要么无法维持积极的情绪发展进程，要么用户情绪轨迹波动性更大。

值得注意的是，一些针对英语指令进行调整的模型（例如 ChatGPT-4o-Latest、kimi-K2-Preview）的质心定位优于其对应的中文模型，这表明不同语言的预训练和对齐方式在情绪调节策略上存在差异。

（二）情绪轨迹可视化

为了更直观地理解本文提出的评估框架，团队针对三种情绪干扰程度（0、1 和 3 次干扰事件）进行了可视化分析。

下图揭示了以下几点：（1）ETV 得分较高的模型能更有效地帮助用户从低落的情绪状态中恢复，这印证了团队之前的论断。（2）在没有干扰事件的情况下，这些模型可以在相对较短的时间内将用户的情绪恢复到中性水平。（3）多次干扰事件会降低情绪恢复的速度；然而，具有更强情绪支持能力的模型对这类干扰表现出更强的抵抗力。