13个基准全SOTA！人大&快手提出ARPO算法，让LLM更懂Agent协作

点击下方卡片，关注“大模型之心Tech”公众号

今天大模型之心Tech为大家分享人大与快手联合发布的专为训练多轮基于LLM的Agent而设计的ARPO算法。如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→大模型技术交流群

>>点击进入→Agent技术交流群

本文只做学术分享，如有侵权，联系删文

写在前面

当大语言模型（LLMs）开始像人类一样调用工具解决复杂问题时，一个关键挑战浮出水面：如何在长程推理与多轮工具交互之间找到平衡？

近期，中国人民大学与快手科技联合提出的 Agentic Reinforced Policy Optimization（ARPO） 算法，为这一难题提供了突破性解决方案。该算法通过捕捉工具调用后的「不确定性信号」，动态调整探索策略，在13个 benchmarks 中全面超越传统轨迹级强化学习方法，更惊人的是，它仅需一半工具调用预算就能实现性能提升。

大模型工具交互的「暗礁」：高熵陷阱与探索困境

在现实场景中，LLMs 往往需要借助搜索引擎、代码解释器等外部工具完成任务。例如，回答「2024年诺贝尔物理学奖得主是谁」时，模型需要调用搜索引擎获取实时信息；解决复杂数学问题时，则需通过 Python 解释器验证计算过程。

但现有强化学习（RL）算法在训练这类工具型智能体时，暴露出严重缺陷：

轨迹级采样的局限性：传统方法（如 GRPO、DAPO）专注于完整轨迹的采样与优化，忽视了工具交互后关键步骤的细粒度探索。
工具调用的不确定性：研究团队发现，LLMs 在接收工具反馈后，生成 tokens 的熵值会急剧上升（图1左）。这意味着模型在此时陷入决策迷茫，但现有算法无法针对性增强探索。
预算效率低下：为覆盖足够多的交互场景，现有方法需大量工具调用，导致训练成本高昂，难以规模化应用。

资讯配图 — 图1：工具使用token熵探索与ARPO算法性能概述。左图：观察到大型语言模型（LLM）在工具使用后出现高熵现象。右图：仅使用1k强化学习（RL）样本时，大型语言模型在深度搜索任务上的性能对比，以及训练过程中工具使用预算的对比。

核心矛盾在于：工具反馈带来的信息冲击会重塑模型的推理分布，但轨迹级 RL 算法无法捕捉这种动态变化，导致模型在高不确定性步骤中探索不足，在低价值步骤中浪费资源。

ARPO 算法：用熵值导航的智能体训练框架

ARPO 的创新之处在于，它将工具交互后的「熵值波动」转化为探索导航信号，通过两大核心机制实现高效训练：

1. 基于熵的自适应滚动机制（Entropy-based Adaptive Rollout）

该机制动态平衡全局轨迹采样与步骤级分支采样，解决传统方法的探索效率问题：

初始化阶段：模型先生成 N 条全局轨迹，记录初始熵分布，剩余预算预留用于分支采样。
熵值监测：每次工具调用后，模型生成额外 tokens 计算当前熵，通过公式量化不确定性变化。
自适应分支：当超过阈值时，触发分支采样（Branch(Z)），从当前节点衍生 Z 条推理路径。例如，在搜索引擎返回多源矛盾信息时（高熵场景），模型会主动探索不同信息整合策略。
终止条件：当分支路径总数达到预算上限或所有路径完成推理时停止，确保资源高效分配。