创新点

不同于 RAG 的固定检索流程或提示工程驱动的代理，MMSearch-R1 用 GRPO 强化学习直接优化大模型何时、如何、如何总结地调用外部搜索工具，实现了“按需搜索”而非盲目检索。
通过让模型在 8 次 rollout 中自我验证，无需人工标注即可判定一道 VQA 题是“可内部回答”还是“需外部搜索”，并细分为图像搜索、文本搜索或混合搜索三类，从而自动得到搜索-免搜索均衡的 5 k 训练集（FVQA-train）。
在奖励函数中引入搜索惩罚因子：答对且未搜索得满分，答对但搜索过则打折。该机制鼓励模型优先使用内部知识，仅在必要时才触发搜索，显著降低 30 % 以上的搜索调用。

方法

本文提出 MMSearch-R1，以 Qwen2.5-VL-7B 为骨干，在 veRL 框架内采用改进的 GRPO 强化学习算法，直接在大模型参数中注入“何时搜索、搜索什么、如何利用搜索结果”的策略。训练时，模型每步采样 512 条（图像、问题、答案）三元组，每条做 8 条 rollout，最多三轮对话、两轮搜索；奖励由“答对得分×搜索惩罚”与格式分加权构成，搜索惩罚促使模型优先用内部知识。为此，作者先基于 MetaCLIP 概念分布与 InfoSeek 构建 FVQA 语料，利用自验证策略将样本自动标记为搜索-免搜索两类，形成 5 k 均衡训练集；同时部署 SerpAPI 图像搜索、SerpAPI+Jina Reader+Qwen3-32B 文本搜索两条真实网络工具链，配以三级缓存、限流与失败重试机制，供模型在 rollout 中按需调用。推理阶段，模型先自评知识边界，再决定是否触发图像或文本搜索并生成查询，直至给出最终答案。

MMSearch-R1 整体流程示意

本图用一张“VIPER 月球车”的真实照片作为故事起点，像一部三幕剧一样把 MMSearch-R1 的完整搜索链路拍成连续画面：第一幕，模型盯着图片发现“我知道这是月球车，但完全不知道它哪天被取消”，于是先打上自我诊断“需要外部知识”；第二幕，它把整张照片送到 Google Lens，返回三条网页快照，标题里蹦出“VIPER 月球车项目取消”的关键词，但日期依旧缺位；第三幕，模型立刻生成精准文本查询 <text_search> “NASA VIPER moon rover project canceled 2024”，搜索引擎带回三条官方新闻，明确指出“2024-07-17”，模型在中干净利落地写下 “July 17”。整个流程像放大镜一样把“图像→图像搜索→文本搜索→答案”的每一步细节放大给观众看，同时用淡蓝色箭头把时间轴和动作指令串成闭环，既展示了 MMSearch-R1 如何主动识别知识盲区，又直观证明了“按需搜索”比传统 RAG 的固定两跳检索更高效、更省调用。

GRPO 训练与多轮搜索交互流程

本图上半部分是GRPO 强化学习引擎的“后台机房”——左侧画着 Policy Model（πθ）与 Reference Model（πref）两条并行线，中间用 Group Computation 模块把 8 条 rollout 的奖励做归一化，再经 KL 约束后回传梯度；右侧 Reward Model 把“答对得分×搜索惩罚”注入训练闭环，直观呈现“搜索越少、奖励越高”的优化目标。整个交互链条像放电影一样逐帧展开，把“何时搜、搜什么、怎么用”的决策逻辑完全可视化，让人一眼看懂 MMSearch-R1 是如何在真实互联网环境里边想边搜、边搜边想的。

FVQA 数据集构造全景

本图(a) 自动化流程展示如何从 MetaCLIP 概念、网络图-文对、GPT-4o 生成 QA；(b) 知识分类树状图覆盖艺术、人物、事件等八大领域；(c) 总览图把自动语料、人工标注、搜索-免搜索平衡采样串联成最终 5 k 训练集与 1.8 k 测试集，一目了然地说明了数据来源与配比。

实验

本表把同一规模（7B）的 MMSearch-R1 与闭源大杯 GPT-4o、Gemini 2.5 Pro 以及开源 7B→72B 系列在五个基准上的“答对率 vs 搜索率”一次性摊开：横向看，RAG 工作流把搜索预算打满（100%），换来 51.6–66.0% 的准确率，却造成大量冗余调用；而 MMSearch-R1 在保持 54.6–59.5% 平均准确率的同时，将搜索率压到 67.1–88.5%，在 LiveVQA 这类新数据上甚至只用 42.5% 的搜索步就能逼平或反超 32B-RAG，说明强化学习让模型真正学会了“能答就不搜、答不出再搜”，用更少的搜索换取了与更大模型相当的表现，验证了“按需搜索”策略的实用价值。

-- END --

最后对多模态创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入多模态交流群！

关注“学姐带你玩AI”公众号，回复“多模态检索”

领取多模态检索创新方案合集+开源代码

往期推荐:

多模态CLIP魔改版太强了！直接上岸CVPR！

荣登Nature招牌1区Top！可解释的多模态融合模型迎来新突破！

凭借SAM+多模态又发一篇CVPR！字节＆北大都在做，跟上别掉队了！

2025年，多模态特征融合只会更火

多模态融合可能是现在或者未来一段时间最好发论文的方向了！

ACCEPT

据说点赞的都Accept了！