智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练

智源社区 2025-10-13 12:15

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图1
报告主题:“知人者智”:以用户为中心的智能体交互与训练
报告日期:10月16日(周四) 10:30-11:30
报告要点:

大语言模型虽在各种评测体系中表现出色,却常在面对真实用户时把握不准需求,显得有些笨拙。现实中,用户意图通常以暗示、含蓄、间接的方式表达,且往往要在多轮对话中慢慢显露。如何让模型从仅仅“会解题”过渡到完全“懂用户”,是交互智能的核心难题,也是 UIUC 与 Salesforce 团队在以下两篇论文里试图回答的关键问题。

1. UserBench:先有“明镜”,才能照出“懂人”与否

UserBench 最标志性的设计,是旅行规划任务,覆盖五个子场景,每个场景都设有数十条隐式偏好表述,例如“行程很紧”就暗含“直飞/少中转”的飞行偏好。模型需要与环境中的模拟用户互动,理解每一句话背后的语义逻辑,再结合数据库作出推荐。

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图2

以往模型、用户和环境三方交互接口复杂且难以复用,UserBench 将其高度抽象为三类操作:

- Action:与用户对话(澄清、追问、确认偏好);

- Search:检索数据库(返回混合候选集,模拟真实世界的不完美检索);

- Answer:提交推荐(完成用户需求)。

不同任务得以在同一坐标系下评估比较,为后续 UserRL 的训练框架打下了接口基础。

研究结果揭示了许多关键信息:

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图3

2. UserRL:让交互进入训练循环

如果说 UserBench 是一面明镜,那 UserRL 就是一块磨刀石,在 UserBench 抽象出的三个接口上,构建八大统一 Gym 环境,把 User-in-the-Loop 的多轮交互转化为一个可训练的强化学习问题。在每个环境中,用户同样由 LLM 模拟,并且可以更换不同用户模型,实现交互多样性。

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图4

 UserRL 框架的核心特点:

- 确定性任务状态和可验证奖励函数;

- 自然语言互动,保留动态模拟用户对话的开放性;

- 多轮 rollout,让模型在交互中做出策略性选择。

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图5

实际训练中,采用回合层、轨迹层双层奖励,可灵活组合,适配不同交互任务。

  - Naive:直接用环境奖励,但往往稀疏;

  - Equalized:为所有回合赋予同样奖励;

  - R2G:把未来预期奖励折扣回流;

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图6

 - EM:非线性映射,小进展也能带来正反馈。

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图7

  - Sum:直接累积每回合奖励;

  - R2G:早期进展赋予更高价值,更强调任务完成效率。

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图8

研究主要发现:

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图9

(所有代码,环境以及训练框架全部开源,欢迎研究者们使用)

报告嘉宾:

钱成,伊利诺伊大学香槟分校 (UIUC) 二年级博士生,导师为季姮教授。本科就读于清华大学计算机系,导师为刘知远教授。目前工作集中在大语言模型工具使用与推理,以及人工智能体方向。曾在 ACL,EMNLP,COLM,COLING,NAACL,ICLR 等多个学术会议发表论文十余篇,一作及共一论文十余篇,谷歌学术引用超 1000,现担任 ACL, EMNLP Area Chair,以及 AAAI,EMNLP,Neurips,COLM 等多个会议 Reviewer。

智源TALK|懂人心才叫真智能,“知人者智”:以用户为中心的智能体交互与训练图10

👆扫码报名👆或者点击「阅读原文」报名


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号