复旦×创智OpenMOSS团队 投稿
量子位 | 公众号 QbitAI
被CVPR 2026收录!
复旦邱锡鹏团队(OpenMOSS)首次提出Thinking with Video这一推理新范式:
借助视频生成模型,以视频帧为统一媒介进行多模态推理,打破视觉与文本的界限。

团队发现,Thinking with Text(基于文本的CoT推理)和Thinking with Images(在CoT中加上图像辅助推理)范式已大幅提升了LLMs和VLMs的推理能力。
但它们仍有局限:静态图像无法展现动态过程,文本与视觉模态的割裂阻碍了统一理解与生成。
而借助新范式Thinking with Video,视频生成模型在视觉任务上不仅总体媲美SOTA VLMs,而且竟也能解决MATH、MMMU等文本推理任务。
这可谓提前预判了前不久谷歌Gemini Omni曝光的“教授黑板推公式”的文本推理能力。
目前该工作在社交平台X上受到关注,数据和代码已全面开源。

Thinking with Video:视频生成作为多模态推理新范式
从Thinking with Text到Thinking with Images,这些推理范式仍存在重要缺陷:
1、静态约束:图像只能捕捉单一时刻的信息,难以表达动态过程、时间变化与连续变换。
2、模态分离:文本与视觉仍被分开处理,缺少一种自然统一二者的推理载体。
研究团队注意到,视频生成模型能像人一样进行绘制、想象、模拟,有助于解决视觉推理问题。
同时,视频帧还可承载文本,从而也有望完成文本推理问题。
由此可见,Thinking with Video天然拥有多模态推理优势,研究团队对此进行了深入探索。
VideoThinkBench:综合的视频生成推理测试基准
为了全面评估视频生成模型的推理能力,研究团队构建了VideoThinkBench,共包含4149个测试样本,分为视觉任务和文本任务(图1)。

△图1:VideoThinkBench的任务和Thinking with Video过程
视觉任务考察几何直觉、视觉模式归纳、抽象规则归纳、空间规划与搜索,包括Eyeballing Puzzles、Visual Puzzles、ARC-AGI-2和Mazes。
这些视觉任务的样本通过程序自动化生成,并配有可验证答案,便于对视频结果进行精准评测。
文本任务则由已有基准(如MATH、MMLU、MathVista、MMMU)改编而来,包含纯文本和多模态的数学推理与通用推理。
作者在VideoThinkBench上对视频生成模型(如Sora-2、Veo 3.1)进行了评测,并将其结果与三个SOTA VLM(Gemini 2.5 Pro、GPT-5 high、Claude Sonnet 4.5)进行了对比,结果出人意料。
核心发现一:Thinking with Video让模型匹敌甚至超越顶尖VLM
研究发现,视频生成模型在视觉任务上有出色表现,总体可媲美SOTA VLM(表1)。

△表1:视觉任务上的表现,Sora-2竟能匹敌三个顶尖VLM
Thinking with Video能解决几何直觉推理、视觉归纳推理,甚至ARC-AGI-2等多样的视觉任务。
Eyeballing Puzzles:画图模拟,几何推理超越顶尖VLM

△图2:Eyeballing Puzzles任务的输入输出示例
Eyeballing Puzzles(目测谜题)分为Point / Line / Shape三种类型(图2)。
实验表明,Sora-2可在视频中模拟光线的延伸和反射,并操纵几何元素(例如点和线)来辅助推理(图3)。

△图3:Sora-2生成视频解决Eyeballing Puzzles,最后模型会将其答案选项标红,并在语音中说出答案

△图4:各模型在Eyeballing Puzzles上的表现
在多帧投票评估下(利用整个视频过程,避免最后一帧噪声),Sora-2的总体表现竟击败了三个SOTA VLM(图4),充分展现了Thinking with Video能进行画图模拟的独特优势。
Visual Puzzles:视频生成能完成归纳推理

△图5:Visual Puzzles任务的输入输出示例
Visual Puzzles考察模型根据颜色、形状、尺寸进行归纳推理(图5)。
问题不给选项,直接生成视频来补全缺失的颜色或形状(图6)。

△图6:Sora-2生成视频解决多样的Visual Puzzles

△图7:各模型在Visual Puzzles上的表现
在这些视觉谜题上,Sora-2也表现优秀,并在对称任务(Symmetry)中击败了Claude Sonnet 4.5(图7)。
可见视频生成模型不仅能画线模拟,还能从视觉结构中归纳和应用规律。
ARC-AGI-2:视频生成模型是Few-shot Learner
ARC-AGI-2面向更抽象的规则归纳能力,模型需要观察若干输入-输出示例,推断视觉变换规则,再将规则应用到新的网格中。
实验发现,在这一更有挑战性的任务上,Sora-2也能根据示例做出正确预测(图8),展现了从示例中学习变换规则的能力。

△图8:以视频生成解决ARC-AGI-2的题目

△表2:统一视觉输入下各模型在ARC-AGI-2上的表现
在相同的视觉输入形式下,顶尖VLM在ARC-AGI-2上表现欠佳,而Sora-2已可与之匹敌。
由此可见,视频生成模型也能成为Few-shot Learner。
进一步实验显示,增加示例还能提升视频生成模型的表现。

△表3:提供多个和一个示例下的Sora-2的表现
相比只提供一个示例(1-Shot),提供更多示例(Few-Shot)后,更多测试样本达到较高的像素级准确率,也就是更接近正确答案(表3)。
这一发现表明,视频生成模型的In-Context Learning值得进一步探索。
核心发现二:视频生成模型竟能进行文本推理
视频生成模型也能解决文本推理问题吗?
这让人想到不久前曝光的Gemini Omni,网友用它生成了一个在黑板上推导公式的视频,效果堪称惊艳。

△图9:Gemini Omni生成的公式推导视频,来自𝕏@Chetasluah
然而,研究团队在此之前就提出了让视频生成模型解决文本推理任务,并进行了系统性的评测。

△图10:文本任务的输入和输出以及评测方式
VideoThinkBench中的文本任务的输入由文本提示词和参考图像组成(图10)。
问题写在提示词中,也展示在参考图像里。
模型需要生成一段视频,在视频中写出解题过程(图11),并在语音中也说出最终答案。
评测时,大模型基于标准答案,分别判断最后一帧和语音中的答案是否正确。

△图11:在视频生成中解决GSM8K的题目
结果出人意料:
如表4,Sora-2在多个文本测试集上取得亮眼表现,比如在MATH上准确率达 92%,在MMMU上达到69.2%,尽管在更难的文本任务上离顶尖VLM有较大差距。
这一结果表明,视频生成模型很有潜力通过在视频帧中嵌入文本来进行文本推理。

△表4:文本任务评测结果
研究团队还进一步分析了文本任务表现是否是来源于测试集泄露。

△表5:在原始和改编的文本题目上的表现
改编测试数据(GSM8K与MATH),修改问题中的数值和表述进行重新测试后,团队发现Sora-2的表现并未出现下降(表5)。
说明其能力并非来自测试集记忆,而是文本任务上具有真实潜力。
当然,人工案例分析发现视频中的书写过程未必清晰可靠。
如图12,仅有13.91%的解答视频中文本过程完全正确,将近一半的过程都是无法阅读或错误的。
由此可见,模型会给出正确答案,但难以生成清晰、稳定和完全正确的推理步骤。

△图12:对Sora-2文本作答过程的分析
研究还分析了视频生成模型的文本能力,是否可能来源于一个前置的提示词改写模型。

△表6:Wan 2.5在有/无提示词改写下的表现
Wan 2.5的API可控制是否允许改写提示词。
在关闭提示词改写后,Wan 2.5在文本任务上的表现几乎降为零(表6)。
由此可见,若有提示词改写模块,则其可能在最终视频生成前就将文本题目解出。
视频生成推理的Test Time Scaling可能成为新的研究前沿
在LLM推理中,经典的Test Time Scaling方法如Self-Consistency通过多次采样和多数投票提升准确率。
研究团队发现,Thinking with Video竟也有类似的结论。

△图13:通过视频生成解决Arc Connect问题
在Eyeballing Puzzle的任务(Arc Connect,图13)中,只看单次生成的最后一帧,准确率为56%;改用多帧多数投票后提升到68%。
进一步,若让Sora-2生成5次视频并对结果投票,多帧多数投票准确率可直接提升至90%(表7)。

△表7:采样多个视频进行投票的结果
由此可见,Self-consistency能够提升视频生成模型在视觉任务上的表现。
因此视频生成模型的Test Time Scaling也将成为新的研究前沿。
小结一下
研究首次提出了Thinking with Video这一多模态推理新范式:
基于视频生成模型,以视频帧为统一媒介进行多模态推理。
在作者设计的VideoThinkBench上,视频生成模型展现出卓越推理能力。
利用绘画与想象的优势,Sora-2在视觉任务上可媲美顶尖VLM,此外还展现出书写文本来解决文本推理问题的潜力。
研究发现视频生成模型还是Few-shot Learner;Self-consistency可进一步提升视频生成推理性能。
整体来看,团队认为Thinking with Video为多模态推理开辟了无限可能。
论文链接:
https://arxiv.org/abs/2511.04570
项目网站:
https://thinking-with-video.github.io
代码仓库:
https://github.com/tongjingqi/Thinking-with-Video
数据集:
https://huggingface.co/datasets/OpenMOSS-Team/VideoThinkBench
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注AI的学术编辑实习生🎓

🌟 点亮星标 🌟