新突破!多模态搜索模型MMSearch-R1发布

学姐带你玩AI 2025-07-21 18:00

论文题目:MMSearch-R1: Incentivizing LMMs to Search

论文地址:https://arxiv.org/pdf/2506.20670

代码地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

创新点

  • 不同于 RAG 的固定检索流程或提示工程驱动的代理,MMSearch-R1 用 GRPO 强化学习直接优化大模型何时、如何、如何总结地调用外部搜索工具,实现了“按需搜索”而非盲目检索。

  • 通过让模型在 8 次 rollout 中自我验证,无需人工标注即可判定一道 VQA 题是“可内部回答”还是“需外部搜索”,并细分为图像搜索、文本搜索或混合搜索三类,从而自动得到搜索-免搜索均衡的 5 k 训练集(FVQA-train)。

  • 在奖励函数中引入搜索惩罚因子:答对且未搜索得满分,答对但搜索过则打折。该机制鼓励模型优先使用内部知识,仅在必要时才触发搜索,显著降低 30 % 以上的搜索调用。

方法

本文提出 MMSearch-R1,以 Qwen2.5-VL-7B 为骨干,在 veRL 框架内采用改进的 GRPO 强化学习算法,直接在大模型参数中注入“何时搜索、搜索什么、如何利用搜索结果”的策略。训练时,模型每步采样 512 条(图像、问题、答案)三元组,每条做 8 条 rollout,最多三轮对话、两轮搜索;奖励由“答对得分×搜索惩罚”与格式分加权构成,搜索惩罚促使模型优先用内部知识。为此,作者先基于 MetaCLIP 概念分布与 InfoSeek 构建 FVQA 语料,利用自验证策略将样本自动标记为搜索-免搜索两类,形成 5 k 均衡训练集;同时部署 SerpAPI 图像搜索、SerpAPI+Jina Reader+Qwen3-32B 文本搜索两条真实网络工具链,配以三级缓存、限流与失败重试机制,供模型在 rollout 中按需调用。推理阶段,模型先自评知识边界,再决定是否触发图像或文本搜索并生成查询,直至给出最终答案。

MMSearch-R1 整体流程示意

本图用一张“VIPER 月球车”的真实照片作为故事起点,像一部三幕剧一样把 MMSearch-R1 的完整搜索链路拍成连续画面:第一幕,模型盯着图片发现“我知道这是月球车,但完全不知道它哪天被取消”,于是先打上自我诊断“需要外部知识”;第二幕,它把整张照片送到 Google Lens,返回三条网页快照,标题里蹦出“VIPER 月球车项目取消”的关键词,但日期依旧缺位;第三幕,模型立刻生成精准文本查询 <text_search> “NASA VIPER moon rover project canceled 2024”,搜索引擎带回三条官方新闻,明确指出“2024-07-17”,模型在中干净利落地写下 “July 17”。整个流程像放大镜一样把“图像→图像搜索→文本搜索→答案”的每一步细节放大给观众看,同时用淡蓝色箭头把时间轴和动作指令串成闭环,既展示了 MMSearch-R1 如何主动识别知识盲区,又直观证明了“按需搜索”比传统 RAG 的固定两跳检索更高效、更省调用。

GRPO 训练与多轮搜索交互流程

本图上半部分是GRPO 强化学习引擎的“后台机房”——左侧画着 Policy Model(πθ)与 Reference Model(πref)两条并行线,中间用 Group Computation 模块把 8 条 rollout 的奖励做归一化,再经 KL 约束后回传梯度;右侧 Reward Model 把“答对得分×搜索惩罚”注入训练闭环,直观呈现“搜索越少、奖励越高”的优化目标。整个交互链条像放电影一样逐帧展开,把“何时搜、搜什么、怎么用”的决策逻辑完全可视化,让人一眼看懂 MMSearch-R1 是如何在真实互联网环境里边想边搜、边搜边想的。

FVQA 数据集构造全景

本图(a) 自动化流程展示如何从 MetaCLIP 概念、网络图-文对、GPT-4o 生成 QA;(b) 知识分类树状图覆盖艺术、人物、事件等八大领域;(c) 总览图把自动语料、人工标注、搜索-免搜索平衡采样串联成最终 5 k 训练集与 1.8 k 测试集,一目了然地说明了数据来源与配比。

实验

本表把同一规模(7B)的 MMSearch-R1 与闭源大杯 GPT-4o、Gemini 2.5 Pro 以及开源 7B→72B 系列在五个基准上的“答对率 vs 搜索率”一次性摊开:横向看,RAG 工作流把搜索预算打满(100%),换来 51.6–66.0% 的准确率,却造成大量冗余调用;而 MMSearch-R1 在保持 54.6–59.5% 平均准确率的同时,将搜索率压到 67.1–88.5%,在 LiveVQA 这类新数据上甚至只用 42.5% 的搜索步就能逼平或反超 32B-RAG,说明强化学习让模型真正学会了“能答就不搜、答不出再搜”,用更少的搜索换取了与更大模型相当的表现,验证了“按需搜索”策略的实用价值。

-- END --


最后对多模态创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入多模态交流群!
图片

关注“学姐带你玩AI”公众号,回复“多模态检索

领取多模态检索创新方案合集+开源代码

往期推荐:





多模态CLIP魔改版太强了!直接上岸CVPR!


荣登Nature招牌1区Top!可解释的多模态融合模型迎来新突破!


凭借SAM+多模态又发一篇CVPR!字节&北大都在做,跟上别掉队了!


2025年,多模态特征融合只会更火


多模态融合可能是现在或者未来一段时间最好发论文的方向了!



ACCEPT
据说点赞的都Accept了!
图片

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号