ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架

机器之心 2026-07-03 11:19
ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架图1


本文的第一作者为北京大学王选计算机研究所博士生郑明航,通讯作者为助理教授刘洋。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,并和国内外知名高校、科研机构广泛开展合作。


本文主要介绍该团队和华为中央媒体技术院在多模态视频理解与时序定位领域的最新研究成果。


该工作针对现有基于强化学习的视频大模型在推理过程中往往产生肤浅推理,且无法为精确的时序定位提供有效指导的问题,提出了全新的时序感知推理优化(Temporal-Aware Reasoning Optimization,TaRO)训练框架。该方法显式地增强了模型带着时间思考的能力,在多个公开基准上取得了最先进的零样本性能。目前相关代码已开源。


ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架图2



背景与动机


视频时序定位(Video Temporal Grounding, VTG)旨在根据自然语言查询,在未剪辑的视频中精准定位对应事件的起止时间段。近期,多模态大语言模型(MLLMs)结合强化学习(RL)在生成引导时序定位的推理路径方面展现出了巨大潜力。然而,现有的强化学习方法生成的推理往往是肤浅的描述,未能识别出回答所需的特定视频证据。


如图 1(a)所示,本文对现有分别在带推理路径和直接输出答案(无推理)两种设置下进行训练和推理,发现两者的性能几乎没有差异。这一现象证明了尽管现有模型被训练进行推理,但这些生成的肤浅推理对最终的定位预测几乎没有实质性贡献。本文分析了其背后的两大原因: 



ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架图3

图 1:背景与动机


技术方案


为了克服上述挑战,本文提出了时序感知推理优化(TaRO)框架,旨在训练多模态大模型显式带着时间进行思考。如图 2 所示,TaRO 框架包含三个组件:



ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架图4

图 2:时序感知推理优化(TaRO)框架


实验结果


零样本视频时序定位性能:如表 1 所示,采用 TaRO 框架训练的视频大模型在 Charades-STA、ActivityNet Captions、QVHighlights 和 TVGBench 四个公开基准测试上,全面超越了现有的最先进方法。例如,使用 Qwen2.5-VL-7B-Instruct 作为基座模型时,TaRO 在 TVGBench 上的 R1@0.5 指标领先基线模型达 8.4%。


此外,TaRO 在较小的 Qwen2.5-VL-3B 模型和更新的 Qwen3-VL-8B 架构上也展现出了一致的性能提升,证明了该方法的通用性。


ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架图5

表 1:零样本视频时序定位性能比较


长视频场景下的扩展能力:为了进一步验证 TaRO 在长视频上的表现,本文在两大长视频数据集上进行了零样本评测,包括 TACOS(平均长度 367 秒)和 Ego4D NLQ(平均长度 499 秒)数据集。如表 2 所示,在使用相同底座模型的情况下,采用 TaRO 框架训练的视频大模型依然保持了优秀的性能,大幅领先现有基线方法。特别是在 Qwen3-VL-8B 架构上,TaRO 带来了更明显的提升,例如在 TACOS 上 R1@0.3 提升了 13.7%,在 Ego4D NLQ 上 R1@0.3 提升了 8.7%。这证明了基于时序感知的强化学习优化在面对长视频时的有效性和鲁棒性。


ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架图6

表 2:长视频时序定位性能比较


消融实验:表 3 验证 TaRO 各核心设计的有效性。首先在纯随机探索的基线模型上,单独加入时序敏感度奖励(TR)使得 R1@0.5 从 61.1% 提升至 63.1%(第 1,2 行),证明了时序敏感奖励的有效性。而如果仅在训练中让模型完全模仿外部构造的推理路径(CRE)而不进行后续的自由探索阶段(PC),模型的定位性能会出现严重下滑(第 3,4 行)。这是因为测试阶段无法依赖外部字幕输入,模型必须内化自己的推理策略。而引入渐进式课程学习(PC)则弥补了这一鸿沟,并实现了最优性能(第 5,6 行)。


ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架图7

表 3:消融实验


可视化结果:图 3 的可视化展示了 TaRO 在应对复杂多模态场景时的表现。 视频开头出现了一个强干扰项(女子用手擦脸),其视觉动态与文本查询(用刷子擦脸)高度相似。TaRO 通过生成细粒度的中间时序推理,精准锚定了 19.0s 至 37.0s 的关键动作,并剔除了后续的无关片段,最终给出了正确的时序预测。 


ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架图8

图 3:可视化对比


总结


针对视频时序定位中多模态大模型推理流于表面、缺乏真正时间感知的问题,本文推出了 TaRO 框架。通过引入模板化推理探索机制来高效引导模型带着时间思考,并利用时序敏感度奖励来量化推理质量 ,TaRO 成功提升了多模态大模型的时序推理能力。大量实验证明,该框架不仅显著提升了模型推理的鲁棒性与可解释性 ,更在多个公开基准上取得了最佳的视频时序定位性能。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR IC 开源 华为 大模型
more
慕展抢先看 | Allegro 推出首款集成轮速传感器接口的安全型 PMIC,专为电子机械制动系统打造
中国版龙虾“实在Agent”,开启企业级智能体新范式|实在智能联创张俊九「AgenticAICon 2026」预告
2026年中国ASIC芯片产业链图谱及投资布局分析
ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!
玻璃基板量产前夜:Absolics的竞速与突围
Anthropic承认了!Claude Code木马门被抓包,明天回滚
跨会话不再「失忆」:openJiuwen社区开源 AutoGenetic Memory,让Agent记忆自主生长
【有奖答题】完成Nordic平台安全小测验,有机会获得实用奖品!
629元起!DJI Mic Mini 2S发布,大疆把专业收音塞进了12g机身
从单智能体到智能体互联网,开放协议驱动的智能体连接基础设施|ANP开源社区发起人常高伟「AgenticAICon 2026」预告
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号