智猩猩Agentic整理
编辑:六一
你是否曾因AI的“机械式安慰”感到失望?当大模型能解方程却读不懂你的沮丧时,我们不禁发问:AI的情商(EQ)能否追上它的智商(IQ)?
为此,腾讯混元数字人团队提出RLVER框架,通过构建用户对话模拟环境,实时生成情感反馈评分,为模型提供可量化的训练信号。此方法通过强化学习与可验证情感奖励的有效结合,显著提升了模型的“情商”。
Qwen2.5-7B模型经训练后,Sentient情感基准测试得分从13.3跃升至79.2,达到GPT-4o水平,对话成功率提升20倍(2%→42%),且数学推理和代码生成等通用能力保持稳定,为实现具备“情商”且功能广泛的智能体提供了切实可行的途径。

论文标题:
RLVER : Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents
论文链接:
https://arxiv.org/pdf/2507.03112
项目地址:
https://github.com/Tencent/DigitalHuman/tree/main/RLVER
1
方法

1、自洽的用户模拟引擎
使用强化学习对模型进行“情商”训练面临着几个关键障碍:
缺乏稳定、现实且可扩展的多轮对话模拟环境;
缺乏一致且可验证的通用能力(如情商)的奖励机制;
使用大语言模型进行多轮强化学习的稳定训练仍然是一个有待解决的挑战。
为此,论文基于SAGE框架,将其改造成一个实时训练环境,使用其中的情感智能体作为用户模拟器。
每个模拟用户都具有一定的背景设定,确保情感反应的多样性和真实性,在对话过程中,模拟用户动态生成可验证的情感分数,为后续的强化学习提供了关键奖励信号。
2、Heart-in-the-Loop强化学习
为了通过强化学习训练“情商”,论文建立了一个闭环反馈机制,在这个机制中,大模型交替生成富有情感意识的回应,并从用户模拟器接收情感敏感的反馈。这个循环构成了Heart-in-the-Loop训练范式的基础,具体来说:
首先初始化对话场景,用户模拟器生成包含人物设定、背景故事和情感基调的对话种子。
随后,模型基于当前对话历史生成响应,在此处,论文创新性地引入"Think-Then-Say"提示模板,强制模型在输出回复前先进行显式推理,即让模型进行“思考”。模拟器通过情感评估机制计算即时情感分数并生成符合角色设定的回复。
这一交互过程持续进行,直到达到最大对话轮次或情感分数低于预设阈值。最终奖励取对话终止时的标准化情感分数。
在训练策略上,论文采用PPO算法进行策略优化,同时采用熵正则化和奖励加权模仿损失作为辅助优化目标,确保模型习得的是通用共情模式而非特定模拟行为的记忆。

2
实验

实验结果表明:在Sentient基准上,Qwen2.5-7B模型经训练后能力接近顶尖闭源模型,同时数学推理、遵循指令等通用能力几乎没有退化。引入"Think-Then-Say”提示模板的“思考”模型在训练后通常展现出更高的能力。虽然两种强化学习算法都有效,但PPO策略可能提供更高的性能上限。

论文还对模型在同理心对话任务中的五个核心能力进行了评估,结果显示:RLVER在五个核心能力上均带来了一致的提升。“思考”模型在同理心和洞察力方面表现出色,而非“思考”模型可能更擅长于行动。


作为RLVER框架的核心组件,自洽用户模拟器同时承担着训练环境构建和情感奖励生成的双重职能,其行为特征直接影响模型训练效果。论文通过对比实验发现:更有挑战性的对话环境会导致性能下降,证实了适度难度原则的必要性;“思考”模型面对环境变化表现出更强大的鲁棒性;不同难度环境会引导模型发展不同能力维度,挑战环境更利于提升核心洞察和深度共情能力。
✦ END ✦
推荐阅读
AI智能体推理新范式!CMU开源Agentic-R1,双策略蒸馏实现推理最优选择
ICML2025 Oral | NUS与上海AI Lab首提智能体超网概念并推出MaAS框架,可自动演化多智能体系统
精调手机GUI智能体击败GPT-4o!腾讯AI Lab俞栋团队提出在线强化学习框架MobileGUI-RL