使智能体情商爆表直追GPT-4o!腾讯混元开源RLVER框架,融合RL与可验证情感奖励

智猩猩 2025-07-25 16:31

智猩猩Agentic整理

编辑:六一


你是否曾因AI的“机械式安慰”感到失望?当大模型能解方程却读不懂你的沮丧时,我们不禁发问:AI的情商(EQ)能否追上它的智商(IQ)?


为此,腾讯混元数字人团队提出RLVER框架,通过构建用户对话模拟环境,实时生成情感反馈评分,为模型提供可量化的训练信号。此方法通过强化学习可验证情感奖励的有效结合,显著提升了模型的“情商”。


Qwen2.5-7B模型经训练后,Sentient情感基准测试得分从13.3跃升至79.2达到GPT-4o水平,对话成功率提升20倍(2%→42%),且数学推理和代码生成等通用能力保持稳定,为实现具备“情商”且功能广泛的智能体提供了切实可行的途径。


资讯配图

  • 论文标题:

    RLVER : Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

  • 论文链接:

    https://arxiv.org/pdf/2507.03112

  • 项目地址:

    https://github.com/Tencent/DigitalHuman/tree/main/RLVER

1

方法


资讯配图


1、自洽的用户模拟引擎


使用强化学习对模型进行“情商”训练面临着几个关键障碍:


  • 缺乏稳定、现实且可扩展的多轮对话模拟环境;

  • 缺乏一致且可验证的通用能力(如情商)的奖励机制;

  • 使用大语言模型进行多轮强化学习的稳定训练仍然是一个有待解决的挑战。


为此,论文基于SAGE框架,将其改造成一个实时训练环境,使用其中的情感智能体作为用户模拟器。


每个模拟用户都具有一定的背景设定,确保情感反应的多样性和真实性,在对话过程中,模拟用户动态生成可验证的情感分数,为后续的强化学习提供了关键奖励信号。


2、Heart-in-the-Loop强化学习


为了通过强化学习训练“情商”,论文建立了一个闭环反馈机制,在这个机制中,大模型交替生成富有情感意识的回应,并从用户模拟器接收情感敏感的反馈。这个循环构成了Heart-in-the-Loop训练范式的基础,具体来说:


  • 首先初始化对话场景,用户模拟器生成包含人物设定、背景故事和情感基调的对话种子。

  • 随后,模型基于当前对话历史生成响应,在此处,论文创新性地引入"Think-Then-Say"提示模板,强制模型在输出回复前先进行显式推理,即让模型进行“思考”。模拟器通过情感评估机制计算即时情感分数并生成符合角色设定的回复

  • 这一交互过程持续进行,直到达到最大对话轮次或情感分数低于预设阈值。最终奖励取对话终止时的标准化情感分数


在训练策略上,论文采用PPO算法进行策略优化,同时采用熵正则化奖励加权模仿损失作为辅助优化目标,确保模型习得的是通用共情模式而非特定模拟行为的记忆。


资讯配图

2

实验


资讯配图


实验结果表明:在Sentient基准上,Qwen2.5-7B模型经训练后能力接近顶尖闭源模型,同时数学推理、遵循指令等通用能力几乎没有退化。引入"Think-Then-Say”提示模板的“思考”模型在训练后通常展现出更高的能力。虽然两种强化学习算法都有效,但PPO策略可能提供更高的性能上限


资讯配图


论文还对模型在同理心对话任务中的五个核心能力进行了评估,结果显示:RLVER在五个核心能力上均带来了一致的提升。“思考”模型在同理心和洞察力方面表现出色,而非“思考”模型可能更擅长于行动。


资讯配图
资讯配图


作为RLVER框架的核心组件,自洽用户模拟器同时承担着训练环境构建和情感奖励生成的双重职能,其行为特征直接影响模型训练效果。论文通过对比实验发现:更有挑战性的对话环境会导致性能下降,证实了适度难度原则的必要性;“思考”模型面对环境变化表现出更强大的鲁棒性不同难度环境会引导模型发展不同能力维度,挑战环境更利于提升核心洞察和深度共情能力。


  ✦   END  ✦  

 



 推荐阅读 


AI智能体推理新范式!CMU开源Agentic-R1,双策略蒸馏实现推理最优选择

ICML2025 Oral | NUS与上海AI Lab首提智能体超网概念并推出MaAS框架,可自动演化多智能体系统

精调手机GUI智能体击败GPT-4o!腾讯AI Lab俞栋团队提出在线强化学习框架MobileGUI-RL

别再迷信 Agent 框架了,Context Engineering 才是王道!

大模型Multi-Agent多智能体应用技术盘点

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
国产大模型,全球开源榜第一名!
文心开源服务站赋能DAY·广州站——携手广东省促进会共建区域AI服务新支点
加快50倍!开源新SAM成「分割天花板」!速度与精度兼得
最强开源易主!阿里Qwen3重磅发布,数学碾压GPT-4o,想能超越Kimi-K2,直逼Claude 4,全球性能榜单再次被刷新
Meta超级智能团队44人名单曝光!华人占50%,博士75%,年薪最高1亿美金!黄仁勋:中国AI力量正引领开源浪潮
iOS 26爆料人遭苹果起诉/Kimi超DeepSeek ,拿下全球开源第一/美团饿了么京东被约谈
阿里发布代码模型Qwen3-Coder并开源,性能媲美Claude Sonnet 4
RISC-V生态: 开源架构能否成为国产车芯的核心竞争力? | 盖世汽车2025第五届汽车芯片产业大会
突破户外RGB-only SLAM尺度漂移难题,精确定位+高保真重建 | ICCV'25开源
每周一度 | 内蒙古自治区与百度智能云签署战略合作;文心开源开放日·澳门站举办:开源技术点燃琴澳AI新动能
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号