SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

论文简介：

由南洋理工大学和TikTok新加坡团队联合开展的《SimpleTIR》研究，针对大语言模型（LLM）在多轮工具集成推理（TIR）中的训练不稳定性问题，提出了一个名为SimpleTIR的即插即用算法。

研究背景源于LLM在单轮任务中表现优异，但在多轮交互中因外部工具反馈导致的分布漂移，常常引发低概率token生成，进而导致梯度爆炸和性能崩溃。SimpleTIR通过识别并过滤包含“空轮”（即无完整代码块或最终答案的轮次）的轨迹，有效阻断高幅度有害梯度，稳定训练动态。

实验结果显示，SimpleTIR在Qwen2.5-7B模型上显著提升了数学推理基准AIME24的得分，从22.1提高到50.5，展现了其在多轮TIR任务中的领先性能。此外，该方法避免了监督微调的限制，鼓励模型探索多样化的推理模式，如自我纠正和交叉验证。

研究不仅提供了理论分析，揭示了低概率token对梯度范数的负面影响，还通过广泛的消融实验验证了过滤空轮策略的关键作用。SimpleTIR的通用性和低成本使其易于集成到现有框架，为多轮TIR的稳定训练和性能提升提供了新路径。

论文链接：

https://hf.co/papers/2509.02479

PaperScope.ai 解读：

https://paperscope.ai/hf/2509.02479

VERLTOOL: Towards Holistic Agentic Reinforcement Learning with Tool Use

论文简介：

《VERLTOOL》由滑铁卢大学、Sea AI Lab、多伦多大学等机构合作完成，提出了一种统一的模块化框架，用于支持具有工具使用的智能体强化学习（ARLT）。

研究背景聚焦于传统强化学习（RLVR）在单轮交互和缺乏外部工具集成方面的局限性，而现有ARLT方法因任务特定代码库、同步执行瓶颈和跨领域扩展性不足而受限。

VERLTOOL通过四项关键贡献应对这些挑战：与VeRL上游对齐以简化维护、通过标准化API实现统一工具管理、异步轨迹执行实现近2倍的加速，以及在数学推理、知识问答、SQL生成等六个ARLT任务上的全面评估。

研究展示了VERLTOOL在多模态支持（文本、图像、视频）和多轮交互中的优势，显著提高了效率和扩展性。例如，在数学推理和软件工程任务中，VERLTOOL取得了与专用系统相当的性能，同时提供统一的训练基础设施。

其模块化插件架构仅需轻量级Python定义即可快速集成新工具，为工具增强的RL研究提供了可扩展的基础。开源代码（https://github.com/TIGER-AI-Lab/verl-tool）进一步促进了社区的广泛采用和算法创新。

论文链接：

https://hf.co/papers/2509.01055

PaperScope.ai 解读：

https://paperscope.ai/hf/2509.01055

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

论文简介：

由ByteDance Seed团队开发的《UI-TARS-2》技术报告，介绍了通过多轮强化学习（RL）推进GUI（图形用户界面）智能体的最新进展。

研究背景是GUI智能体面临的数据稀缺、多轮RL优化不稳定、纯GUI操作局限性以及环境稳定性问题。UI-TARS-2通过四项系统性方法应对这些挑战：数据飞轮机制实现可扩展的数据生成、稳定的多轮RL框架、整合文件系统和终端的混合GUI环境，以及支持大规模轨迹的统一沙箱平台。

实验结果显示，UI-TARS-2在多个GUI基准测试中表现出色，如Online-Mind2Web得分88.2、OSWorld得分47.5等，超越了Claude和OpenAI等强基线。在游戏环境中，其在15款游戏套件中的平均标准化得分为59.8，接近人类水平的60%。此外，UI-TARS-2通过GUI-SDK扩展到长时程信息检索和软件工程任务，显示出跨领域的鲁棒性。

研究还深入分析了训练动态和交互扩展策略，为大规模智能体RL的稳定性和效率提供了实用见解。这些成果表明，UI-TARS-2不仅推动了GUI交互的进步，还展示了在多样化现实场景中的强大泛化能力。

论文链接：

https://hf.co/papers/2509.02544

PaperScope.ai 解读：

https://paperscope.ai/hf/2509.02544