HF今日「智能体」方向论文:SimpleTIR、VERLTOOL、UI-TARS-2与Agentic RL综述

机智流 2025-09-03 23:34

资讯配图

本文由 Intern-S1、Qwen3 等 AI 生成

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

资讯配图
SimpleTIR Training Dynamics

论文简介

由南洋理工大学和TikTok新加坡团队联合开展的《SimpleTIR》研究,针对大语言模型(LLM)在多轮工具集成推理(TIR)中的训练不稳定性问题,提出了一个名为SimpleTIR的即插即用算法。

研究背景源于LLM在单轮任务中表现优异,但在多轮交互中因外部工具反馈导致的分布漂移,常常引发低概率token生成,进而导致梯度爆炸和性能崩溃。SimpleTIR通过识别并过滤包含“空轮”(即无完整代码块或最终答案的轮次)的轨迹,有效阻断高幅度有害梯度,稳定训练动态。

实验结果显示,SimpleTIR在Qwen2.5-7B模型上显著提升了数学推理基准AIME24的得分,从22.1提高到50.5,展现了其在多轮TIR任务中的领先性能。此外,该方法避免了监督微调的限制,鼓励模型探索多样化的推理模式,如自我纠正和交叉验证。

研究不仅提供了理论分析,揭示了低概率token对梯度范数的负面影响,还通过广泛的消融实验验证了过滤空轮策略的关键作用。SimpleTIR的通用性和低成本使其易于集成到现有框架,为多轮TIR的稳定训练和性能提升提供了新路径。

论文链接

https://hf.co/papers/2509.02479

PaperScope.ai 解读

https://paperscope.ai/hf/2509.02479


VERLTOOL: Towards Holistic Agentic Reinforcement Learning with Tool Use

资讯配图
VERLTOOL Framework Overview

论文简介

《VERLTOOL》由滑铁卢大学、Sea AI Lab、多伦多大学等机构合作完成,提出了一种统一的模块化框架,用于支持具有工具使用的智能体强化学习(ARLT)。

研究背景聚焦于传统强化学习(RLVR)在单轮交互和缺乏外部工具集成方面的局限性,而现有ARLT方法因任务特定代码库、同步执行瓶颈和跨领域扩展性不足而受限。

VERLTOOL通过四项关键贡献应对这些挑战:与VeRL上游对齐以简化维护、通过标准化API实现统一工具管理、异步轨迹执行实现近2倍的加速,以及在数学推理、知识问答、SQL生成等六个ARLT任务上的全面评估。

研究展示了VERLTOOL在多模态支持(文本、图像、视频)和多轮交互中的优势,显著提高了效率和扩展性。例如,在数学推理和软件工程任务中,VERLTOOL取得了与专用系统相当的性能,同时提供统一的训练基础设施。

其模块化插件架构仅需轻量级Python定义即可快速集成新工具,为工具增强的RL研究提供了可扩展的基础。开源代码(https://github.com/TIGER-AI-Lab/verl-tool)进一步促进了社区的广泛采用和算法创新。

论文链接

https://hf.co/papers/2509.01055

PaperScope.ai 解读

https://paperscope.ai/hf/2509.01055


UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

资讯配图
UI-TARS-2 Demo Trajectory

论文简介

由ByteDance Seed团队开发的《UI-TARS-2》技术报告,介绍了通过多轮强化学习(RL)推进GUI(图形用户界面)智能体的最新进展。

研究背景是GUI智能体面临的数据稀缺、多轮RL优化不稳定、纯GUI操作局限性以及环境稳定性问题。UI-TARS-2通过四项系统性方法应对这些挑战:数据飞轮机制实现可扩展的数据生成、稳定的多轮RL框架、整合文件系统和终端的混合GUI环境,以及支持大规模轨迹的统一沙箱平台。

实验结果显示,UI-TARS-2在多个GUI基准测试中表现出色,如Online-Mind2Web得分88.2、OSWorld得分47.5等,超越了Claude和OpenAI等强基线。在游戏环境中,其在15款游戏套件中的平均标准化得分为59.8,接近人类水平的60%。此外,UI-TARS-2通过GUI-SDK扩展到长时程信息检索和软件工程任务,显示出跨领域的鲁棒性。

研究还深入分析了训练动态和交互扩展策略,为大规模智能体RL的稳定性和效率提供了实用见解。这些成果表明,UI-TARS-2不仅推动了GUI交互的进步,还展示了在多样化现实场景中的强大泛化能力。

论文链接

https://hf.co/papers/2509.02544

PaperScope.ai 解读

https://paperscope.ai/hf/2509.02544


The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

资讯配图

论文简介

由牛津大学、上海AI实验室、新加坡国立大学等多机构合作完成的《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》系统梳理了智能体强化学习(Agentic RL)的最新进展。

研究背景是传统LLM-RL将语言模型视为静态生成器,局限于单轮输出优化,而Agentic RL将LLM重塑为动态环境中自主决策的智能体。

文章提出了一个双重分类框架:一是以规划、工具使用、记忆等为核心能力,二是以搜索、代码生成、数学推理等为任务领域。

研究强调RL是实现自适应智能体行为的关键机制,通过综合500余篇近期工作,分析了Agentic RL如何赋予LLM长期认知和交互能力。文章还整理了开源环境、基准和框架的实用资源,为加速未来研究提供了支持。例如,在数学推理和GUI交互任务中,Agentic RL显著提升了模型的规划和自我改进能力。

研究指出了信任性、训练扩展性和环境复杂性等开放挑战,并提出了未来方向,如多模态集成和多智能体协作。这篇综述为Agentic RL领域提供了全面的学术地图,突显了其在开发通用AI智能体中的潜力。

论文链接

https://hf.co/papers/2509.02547

PaperScope.ai 解读

https://paperscope.ai/hf/2509.02547


-- 完 --


机智流推荐阅读

1. CUTLASS:通过张量和空间表述处理多维数据的利器

2. 开源多模态大模型新突破,书生·万象3.5发布,通用能力、推理能力与部署效率全面升级

3. 工具调用推理只是花瓶,还是真的让大模型更聪明?腾讯清华团队揭秘工具集成推理的奥秘

4. CVPR2025 | g3D-LF让机器人“看懂”3D空间、“听懂”复杂语言,无需LLM,但导航、问答一气呵成



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR IC
more
Smart ForTwo 回归!更名 Smart #2,2026 年底登场
营销老将李东春加入,iCAR要做“奇瑞的小米”
「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
倒计时1天,塑料圈必冲!ChinaReplas2025攻略:大会+展会+交通住宿天气,一篇搞定
【Open Car】o泡时间到!
【Open Car】外卖+硬件+杂货 有一些开学可以用的东西~~~
arXiv0709:扩散模型如何仅用0.8%数据起飞
兼具DRAM、NAND优势!新型存储器“ULTRARAM”即将量产
最新议程公布!新增20+品牌终端出席!知名材料专家Chris Lefteri、劳尔、WGSN、PeclersParis演讲
新款丰田GR YARIS上市 售39.98万元起
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号