EMNLP 2025 | AgentThink：小模型大超GPT4o! 首个融合推理与工具调用的自动驾驶 VLM 框架

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

引言

近年来，视觉语言模型（VLM）在自动驾驶领域展现出巨大潜力。凭借出色的场景理解与推理能力，VLM有望显著简化传统自动驾驶系统中依赖人工设计的感知、预测与决策模块。然而，现有方法仍在不确定性建模、泛化性能与可解释性等方面存在明显局限。如何让自动驾驶VLM不仅“看得懂”，更能像人类一样“思考”——在复杂的自动驾驶环境中自主调用工具、进行推理与判断？

近日，由清华大学、小米、麦吉尔大学等团队联合提出的AgentThink框架，被自然语言处理顶会EMNLP 2025 Findings接收。该工作首次将动态工具调用与思维链推理深度融合，极大提升了VLM在自动驾驶任务中的推理可靠性和泛化能力。目前，代码与项目网站均已开源。本文将带您一探AgentThink背后的设计思路与技术突破。

原文链接：https://arxiv.org/abs/2505.15298
github链接：https://github.com/curryqka/AgentThink
项目主页：https://curryqka.github.io/AgentThink.github.io/

现状与挑战

随着小米等车企在自动驾驶技术上的快速迭代，行业突破点正从基础感知与控制层面向高阶语义场景理解与复杂拓扑关系等问题收敛。比如一些大路口的复杂红绿灯问题，以及一些复杂标牌的语义理解问题。此外，在探索和使用VLM的过程中，我们发现VLM模型存在严重的幻觉问题 (即模型给出的答案格式是对的，但答案内容都是错的)。这就如同一个看似聪明的导航员，却总是给出错误的路线，让人哭笑不得。

以往很多研究都把自动驾驶任务定义成了一种视觉问答任务，就像教一个模型看图回答问题一样(图1a所示)，并采用SFT对基础视觉语言模型进行微调，使其可以实现指定的目标识别、风险预测以及运动规划等子任务。然而这类方法通常将推理流程视为静态的输入到输出映射，忽略了现实世界决策中至关重要的不确定性、复杂性和可验证性。因此，它们常常存在泛化能力差、输出结果失真和可解释性有限的问题。还有一种流派机械思维链派(图1b所示)：这类方法主要采用刚性推理模板或开放推理格式，但这类方法容易导致冗余步骤或逻辑碎片化，效果也不理想，模型并没有学会真正的推理过程。而Agentthink所采用的框架(图1c所示)可以有效地解决上述短板并且具备根据当下场景自主调用并推理工具的能力，在视觉问答中回答准确性高、推理一致性好，因此幻觉更低。

AgentThink的诞生

荀子曾说：“君子生非异也，善假与物也。”基于以往的研究方法及我们所面临的高阶语义场景、复杂拓扑等业务难题，我们提出了新的研究思路。联想到人类司机开车，对于不确定的场景，会想到去用各种工具（后视镜、手机地图、询问副驾驶、减速观察特定位置、车内语音助手等）来辅助自己对驾驶场景的理解并做出判断。于是我们想到把VLM作为一个Agent，并设计工具库，在推理过程中，通过思维链思考工具调用方式来增强推理过程，通过调用工具结果来增强推理结果，得到更准确的答案。

核心模型框架

AgentThink首次将动态、代理式的工具调用与链式思维（CoT）推理深度融合，使得VLM学会动态地使用工具解决自动驾驶视觉问答(Vision-Question-Answer)。本节介绍三大核心挑战:

C1: 怎么制作数据？

C2: 怎么让模型具备调用工具并且推理的能力？

C3: 怎么inference且&评估模型调用工具推理的能力？

怎么制作数据？

具体可以分为三个部分：工具库为基础，专家大模型为主导生成推理轨迹，测评大模型作为推理评价过滤的Agent。

（1）工具库：

可靠自动驾驶推理类似于人类的决策，不仅需要内部知识，还可以在需要时调用外部工具。因此，本文引入了一个包含工具增强的数据生成流程。具体而言，本文开发了一个专用工具库，包含视觉信息(visual detection)、检测(objection detection)、轨迹预测(trajectory prediction)、占用(cccupancy)和建图(map information)五个核心模块。通过这些工具库共同支持为各种感知和预测任务提供全面的环境信息。

（2）专家大模型生成带工具调用的推理数据

此外，我们采用GPT-4o完成初始的工具集成推理步骤和答案，该过程通过提示模板来进行引导。每一个推理步骤包含五个关键元素，分别是选择工具、生成的子问题、不确定性标志、猜测的答案、下一个动作选择。重复上述流程，为每个问答对采样条结构化推理轨迹。

（3）测评大模型作为推理评价过滤的Agent

最后，为确保生成数据的严谨性与可验证性，我们引入了一个独立LLM审核器(Expert Qwen)对每条数据的内容准确性和逻辑一致性进行双重校验。该审核器严格筛查推理步骤冲突或结论缺乏证据支撑的样本，并执行动态删减机制，最终构建出高质量结构化语料库。该语料库的核心价值在于将显式的工具调用与可溯源的推理链深度融合，形成具备自验证能力的闭环逻辑单元。

怎么让模型具备调用工具并且推理的能力？

本文引入了一个结合SFT和GRPO的两阶段训练流程，使模型能够学习何时以及如何调用工具来增强推理性能。

（1）第一阶段：基于SFT 的推理预热

在第一阶段，对工具增强型 CoT 数据集执行 SFT，以预热模型生成推理链和适当工具调用的能力。每个训练样本表示为，其中 V表示视觉输入，L表示语言指令，TR表示逐步推理链，A表示最终答案。训练目标是最大化生成 TR和 A的似然概率，其损失函数定义为：

其中D为训练数据集，Rt表示第t步的推理标记或答案标记。

其中，第一阶段分为两个部分，第一个部分是考验VLM的工具名称索引能力，输入是给定当前问题和视觉信息，询问模型需要调用什么样的工具，输出是期望VLM能给出给定格式的工具名称调用结果；第二个部分是考验VLM调用工具结果后，使用工具信息的上下文解决提出的问题得到答案的能力，输入是给定当前问题和视觉信息，给定工具调用结果的上下文信息，输出是该问题对应的完整推理过程和结果。

(2)第二阶段：基于RLFT的推理增强

为了进一步优化模型，使其超越模仿学习，我们采用基于强化学习的微调（RLFT），该方法使用GRPO（Group Relative Policy Optimization）算法，能够有效利用结构化奖励，且无需依赖学习到的价值函数（critic）。

GRPO 概述。GRPO通过计算组内每个响应样本的相对优势，避免了对价值函数的需求。给定一个问题q以及从旧策略中采样得到的G个响应，GRPO的目标函数定义为：

其中组内裁剪损失定义为：

重要性权重和归一化优势分别由以下公式给出：

提出了三种奖励函数设定：最终答案奖励、分步推理奖励和工具使用奖励，与通用的相似性指标相比，这种结构化奖励设计提供了更具针对性和可解释性的监督。它使 GRPO 能够优化推理过程的质量以及模型在需要时调用工具的能力。

怎么inference&评估模型调用工具推理的能力？

在执行模型的推理过程中，AgentThink通过让视觉语言模型动态地从预定义库中访问工具来收集信息，从而促进逐步推理。

本文设计针对自动驾驶工具调用的全新评估指标，涵盖工具选择、集成质量以及推理工具的协调用以评估inference过程中的工具调用准确性和合理性。我们设计多个维度的prompt量表，使用gpt-4o-mini进行评价，对比模型inference输出的推理过程工具思维链和GroundTruth数据，打分得到最终各项维度的分数和最终工具的评价分数。

实验结果

在本节中，我们进行了广泛的实验以验证 AgentThink 的有效性。我们的实验设计旨在回答以下核心问题：

Q1. 动态增强推理能否在最终答案准确性和推理一致性方面优于现有的 VLM 基线模型？（主实验）
Q2. 我们结构化的奖励设计（最终答案、逐步推理、工具使用）是否对推理行为有显著贡献？（消融实验）
Q3. AgentThink 在零样本和单一样本设置下的未见数据上泛化能力如何？（泛化性测试）

主实验

主实验回答了Q1的疑问。我们的完整模型 AgentThink 在所有类别中都达到了最先进的性能。它远远超过了基线 Qwen2.5-VL-7B，将整体推理得分从 51.77 提高到 79.68（+51.9%），并将最终答案准确性从 37.81% 提高到 71.35%（+33.5%）。相比于已经集成了一些推理能力的最强先前系统 DriveLMM-o1，AgentThink 在推理方面进一步提高了 +5.9%，在最终答案准确性方面提高了 +9.0%——这表明学习到的工具使用优于静态 CoT 或基于模仿的方法。

X轴代表思维链推理能力，直接决定模型解决复杂路况的逻辑能力
Y轴代表最终问答准确率，关系到行车安全的核心指标
每个圆点代表一个模型，面积越大模型参数量级越高
我们提出的AgentThink居于图片的右上角，从各个维度都超越了现有的SOTA模型

模型指标：除了推理和准确性之外，AgentThink 在驾驶特定指标（风险评估、交通规则遵守和场景理解）以及感知相关类别（相关性和缺失细节检测）方面也始终优于其他方法。这些收益反映了其能够利用动态工具调用和反馈，使其推理更有效地基于视觉上下文。

实验结论：与传统的 CoT 或基于提示的方法不同，AgentThink 学习何时以及为何调用外部工具，从而实现更具适应性和上下文感知的推理。这导致更好的决策质量、更少的幻觉以及在安全关键驾驶场景中的更高可信度。下图是AgentThink推理一帧环视图像的案例分析。

除此以外，我们还分析了不同的训练策略如何影响推理过程中的工具使用行为。表5报告了这三个维度的结果：(1)工具使用恰当性，(2)工具链连贯性，和(3)感知引导的对齐性。

强制通过提示调用工具的 DirectTool 基线显示出一定的工具使用合理性。添加SFT提高了恰当性和对齐性，但由于缺乏对工具质量的反馈，进一步提升受到限制。结合结构化奖励的 GRPO 导致了显著的改进，教会模型选择性地调用工具并将输出连贯整合。我们的完整模型结合了 SFT 和 GRPO 以及完整的奖励，在所有指标中表现最佳。这表明监督和奖励塑造对于学习有效的、上下文感知的工具使用都是必不可少的。我们还评估了训练数据规模的影响，详见附录E。

消融实验

消融实验回答了Q2的疑问。在下表中，我们对 AgentThink 的奖励设计和训练策略进行了全面的消融研究。使用 SFT 或 GRPO 单独应用最终答案或逐步推理奖励，相较于基线模型可以带来适度的提升，分别提高任务准确性和推理一致性。然而，单独应用时它们的效果有限。

我们发现，在强化调整之前，结合 SFT 的 GRPO（不使用工具使用奖励）可以提供更好的性能，这表明预热推理是至关重要的。我们的完整 AgentThink 模型结合了所有三种奖励成分，达到了最优结果。它极大地提升了推理质量和答案准确性，从而强调了使用工具并在视觉上下文中扎根推理的重要性。

泛化性测试

泛化实验回答了Q3的疑问。我们在一个新的 DriveMLLM 基准测试中评估了 AgentThink 的泛化能力，在零样本和单一样本设置下与一系列强大的基线模型进行比较，包括突出的 VLM 和任务特定变体（详细信息见下表）。

AgentThink 在零样本（26.52）和单一样本（47.24）得分上达到了最先进的性能，超过了 GPT-4o 和 LLaVA-72B。虽然像 DirectTool 这样的基线方法通过硬编码工具提示在感知任务结果上表现出色（例如，RHD 89.2 vs. 86.1，BBox 精度 92.4% vs. 91.7%），但它们在上下文刚性和碎片化推理-感知对齐方面存在问题。我们的模型通过有效协调显式推理与基于感知上下文的学习、自适应工具使用展示了优越的平衡。这突出了其学习到的工具使用机制相对于静态提示或单纯模型规模的优势，以实现稳健的泛化。

定性而言，如下图所示，AgentThink 成功地处理了各种基准测试（BDD-X, Navsim, DriveBench, DriveMLLM ）上的挑战性零样本角落情况。在这些情况下，基础 Qwen 模型通常无法收集足够的信息或在推理过程中产生幻觉，导致错误的输出。相比之下，AgentThink 能够熟练地调用工具获取关键决策信息，从而正确回答这些问题。这进一步突出了其动态、增强工具推理在陌生环境中的实用价值。

未来可能可以改进的方向

数据规模：我们的增强工具语料库总共包含 18k 条标注实例，限制了对长尾或罕见驾驶事件的暴露。需要一个更大且更多样化的数据集，以便模型内化更广泛的真实世界场景。

模型大小：我们依赖于 qwen2.5-VL-7B；7B 参数的足迹在嵌入式汽车硬件上带来了不小的内存和延迟开销。未来的工作应调查更轻量级的骨干（例如，~3B），在减轻车载资源约束的同时保留推理能力。

缺乏时间上下文：讨论的模型处理单帧、多视角图像作为输入。然而，由于缺乏顺序信息，它可能会误解依赖时间线索的场景，例如变化的交通灯。为了解决这个问题，可以考虑引入视频标记或采用递归记忆。

缺失3D模态：缺乏LiDAR或点云数据剥夺了模型精确的空间几何信息，增加了距离相关推理的不确定性。融合额外的模态预计将增强鲁棒性。

总结

本文提出了 AgentThink——首个将动态代理式工具调用深度集成到自动驾驶任务中的视觉语言推理框架。通过以下创新设计：

结构化数据生成：构建自动驾驶专用工具库（如目标检测、轨迹预测），利用GPT-4o自动生成显式融合工具调用的自验证推理链数据，覆盖多样化驾驶场景
两阶段训练范式：结合监督微调（SFT）与基于组相对策略优化（GRPO）的强化学习，使模型自主决策何时调用工具及如何整合工具反馈以优化推理
针对Tool的评估体系：业内首创多工具协同评估方法（工具使用恰当性、工具链连贯性、感知对齐性），量化模型在复杂决策中的工具调用能力

在DriveLMM-o1 基准测试中，AgentThink 实现整体推理分数提升 53.91%（从 51.77% → 79.68%），答案准确率提高 33.54%（从 37.81% → 71.35%），显著优于 GPT-4o 及现有 VLM 方法，并展现优异的零样本泛化能力。消融实验进一步验证了动态工具调用与结构化奖励设计对减少幻觉、提升可解释性的关键作用

我们相信，AgentThink 通过将 CoT 推理与工具感知决策深度融合，为构建安全可信的自动驾驶认知智能体奠定了新范式。

未来工作将聚焦：

时序上下文建模：引入视频理解与记忆机制，解决动态信号（如交通灯状态切换）的连续性推理

多模态工具扩展：融合LiDAR点云等3D感知工具，提升空间几何理解精度

强化学习泛化：探索跨场景策略迁移，推动框架在开放道路环境中的快速适配

随着工具增强型 VLM 在自动驾驶领域的加速落地，AgentThink的动态验证机制与类人决策逻辑，有望成为解决长尾挑战、实现通用驾驶智能的核心引擎。

本文仅做学术分享，如有侵权，请联系删文。