ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」

机器之心 2026-02-15 14:43
ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图1


你见过 7B 模型在拼图推理上干翻 GPT-5 吗?


不是靠堆参数,不是靠更大的数据,而是靠一件事:学会「什么时候该用工具」。


大多数「工具增强」模型是这样的:遇到任务 X → 调用固定工具 Y → 祈祷结果正确。一旦场景稍微变化,模型就开始抽风——不知道什么工具该用、什么工具不该用。


AdaReasoner 解决的是更本质的问题:把 what / when / how(用什么、何时用、怎么用)当成推理能力来学。


ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图2



先看 10 秒效果:


AdaReasoner 工作流程示意


Google 近期宣布,为其轻量级模型 Gemini 3 Flash 引入一项名为「Agentic Vision」(代理视觉)的新能力。


这项更新标志着多模态 AI 处理图像的方式发生了根本性转变:从传统的静态识别,升级为具备「思考、行动、观察」循环的主动调查模式。


在此之前,包括 GPT 在内的大多数前沿多模态模型处理图像的方式类似于人类的「匆匆一瞥」:模型接收图像,进行一次性处理并输出结果。这种方式在面对需要细致观察的任务时,往往会因为细节丢失而产生幻觉或猜测。


Agentic Vision 的工作机制:Gemini 3 Flash 现在能够像人类调查员一样通过以下循环进行推理:



上述过程可以多次迭代,直到模型收集到足够的确凿证据来回答问题。


有意思的是:AdaReasoner 与 Agentic Vision 殊途同归。AdaReasoner 同样实现并验证了几乎相同的范式:


ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图3


工业界与学术界同时押注「主动工具使用」,说明这个方向正在成为多模态推理的主流范式。


AdaReasoner 的独特价值在于:我们不只是验证了这套范式有效,更提出了一套让开源小模型也能习得这种能力的训练方法——这正是接下来要详细介绍的内容。


01 痛点:多模态推理为什么

总是「看起来很会,细节就开始猜」?


在多模态推理里,「看清细节」和「多步推理」经常互相卡脖子: 


感知不够精确 → 证据不足 → 推理再漂亮也容易变成「guided guessing」; 


反过来,如果能把关键证据用工具查出来、画出来、验证出来,模型就能把算力用在判断与规划上。


换句话说:工具不是外挂,而是把推理从「猜」拉回「查」的关键路径。


02 一句话介绍 AdaReasoner:

把工具使用当成「通用推理技能」


AdaReasoner 是一个训练范式:让模型不仅会「调用工具」,更会做三类决策:



ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图4

AdaReasoner 把「工具使用」当成推理技能来学习:会采纳有用工具、丢弃无关工具,并按任务调节调用频率。


03 三个关键设计:

让「会用工具」从口号变成能力


3.1 Tool Cold Start (TC):把「犯错-修正」写进数据里


我们不是只给模型看「完美路径」,而是刻意加入两类真实世界会发生的场景:



ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图5

定性案例:多轮工具规划 + 反思纠错 + 组合工具完成复杂视觉推理


3.2 Tool-GRPO (TG):优化「多轮工具编排」,而不是单次调用


多模态工具推理往往不是「一次调用结束」,而是多回合: 


观察 → 调用 → 再观察 → 再调用 → 最终回答。


Tool-GRPO 针对 multi-turn 场景做了专门的强化学习优化,并用自适应奖励把工具使用变成「不确定时的可靠后备」,而不是强制流程。


3.3 Adaptive Learning (ADL):逼模型学「语义」,别背「名字」


为了避免模型死记硬背某个工具名(比如看到 "Point" 就条件反射),我们做了两件事:



ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图6

随机化训练的直观示意


ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图7

AdaReasoner 框架总览:Tool Cold Start → Tool-GRPO → Adaptive Learning


04 最硬的证据:

小模型为什么能「跨级打怪」?


先给结论:AdaReasoner-7B 相对 base 模型在多个基准上实现显著提升(在选取的 8 个 benchmark 上平均 +24.9%),并在结构化推理任务上接近满分。


ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图8

主实验结果:在 VSP、Jigsaw、GUIQA 等任务上显著提升。 


更重要的是:不是「工具越多越好」,而是训练配方决定工具是否真的帮得上忙。 

例如在单任务设置下:



ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图9

瓶颈迁移示意:当工具规划足够好,性能瓶颈从「模型规模」部分迁移到「工具效用与工具规划能力」


05 最有意思的部分:模型真的

学出了「三种自适应工具行为」


这部分是 AdaReasoner 最像「智能体」的地方:我们没有写规则让它这么做,但它在 RL 过程中学会了。


行为 1:会「采纳」有用的新工具(Adopt)


把 A* 规划工具放进强化学习阶段(Cold Start 没见过),模型会逐步提高调用频率并稳定掌握:

VSP Navigation 从 44.83 → 96.33


ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图10

Navigation 任务示意


ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图11

A* 工具调用频率随 RL 训练演化


行为 2:会「丢弃」无关工具(Discard)


更关键的是:A* 对 Verify 任务没用,甚至是干扰项。 


在「只在推理时提供 A*」的设置里,Verify 会出现 94.20 → 80.00 的下降。 


而在 RL 训练后,模型会逐步压制无关调用,让 Verify 维持在接近满分(99.20)。 


一句话:它不仅会用工具,还会学会「别乱用」。


行为 3:会「调节」调用频率(Modulate)


工具也不是开/关二选一。模型会根据子任务「调频」: 


Point 工具在导航更关键(~3.2 calls/sample),在验证更克制(~1.0 call/sample)


ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图12

Point 工具调用频率「调频」:Navigation 中更关键,Verification 中更克制


06 换工具说明书

也能用:泛化与稳健性


现实里最常见的崩溃方式是:工具定义、参数名、描述文案一变,模型就「不会用了」。 


AdaReasoner 用 ADL(随机化 + 改写)把「工具规划」从文本表面形式里解耦出来。


一个很直观的证据来自工具使用统计:



ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图13

工具使用统计(CPS、成功率)与性能


此外,使用 ADL,模型能够更容易在新的任务上取得更好的表现。我们仅使用 Jigsaw 这一个任务的 SFT 数据,在三个任务上 RL,可以看到,使用 ADL 的版本能够在另外两个任务上给模型带来效果上的提升。


ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」图14

ADL 能将单个任务上学来的 agent planning 能力迁移到 SFT 没见过的任务上。


07 我们想强调的

学术结论(Takeaways)


多模态推理不只是 「think harder。更关键的是:


actively seeing, verifying, and planning with tools.


当工具编排学得足够好,瓶颈会发生迁移:


model scale → tool utility + tool planning


这对小模型尤其重要:参数有限时,「会用工具」就是最直接的能力放大器。


从 Agentic Vision 看趋势:Google 用 Agentic Vision 把 Think-Act-Observe 内置到 Gemini,学术界用 AdaReasoner 验证这套范式在开源模型上的可行性——两条路线同时验证了「主动工具使用」的价值。对于希望在自己数据/场景上复现这种能力的研究者和开发者,AdaReasoner 提供了一套完整的开源方案。


Adaptive Learning 对提升模型的泛化性也有很大帮助,可以帮助将 agent planning 能力迁移到以前没见过的 agent 和新的任务上去。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR IC
more
英特尔Bartlett Lake-S嵌入式处理器阵容曝光:全P核设计,最高12核5.9GHz
AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后
上海交大给具身智能发了一张“统考卷”,这会是机器人的LMArena吗?
从 0 到 1:用 NVIDIA Isaac for Healthcare 在仿真里搭建“手术室”
小米MiMo推HySparse架构,破解Agent时代超长文本算力瓶颈
挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台
超越GPT-5、Gemini Deep Research!人大高瓴AI金融分析师,查数据、画图表、写研报样样精通
近2k star的RLinf又又又上新了!支持真机强化学习,像使用GPU一样使用你的机器人~
SGLang核心团队成立商业公司RadixArk,估值达4亿美元;AI推理优化赛道融资热潮持续升温
格罗方德签署协议收购新思科技ARC处理器IP业务,强化物理AI布局
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号