视频生成作为多模态推理新范式 | CVPR 2026

量子位 2026-06-14 19:00

复旦×创智OpenMOSS团队投稿
量子位 | 公众号 QbitAI

被CVPR 2026收录！

复旦邱锡鹏团队（OpenMOSS）首次提出Thinking with Video这一推理新范式：

借助视频生成模型，以视频帧为统一媒介进行多模态推理，打破视觉与文本的界限。

视频生成作为多模态推理新范式 | CVPR 2026图1

团队发现，Thinking with Text（基于文本的CoT推理）和Thinking with Images（在CoT中加上图像辅助推理）范式已大幅提升了LLMs和VLMs的推理能力。

但它们仍有局限：静态图像无法展现动态过程，文本与视觉模态的割裂阻碍了统一理解与生成。

而借助新范式Thinking with Video，视频生成模型在视觉任务上不仅总体媲美SOTA VLMs，而且竟也能解决MATH、MMMU等文本推理任务。

这可谓提前预判了前不久谷歌Gemini Omni曝光的“教授黑板推公式”的文本推理能力。

目前该工作在社交平台X上受到关注，数据和代码已全面开源。

视频生成作为多模态推理新范式 | CVPR 2026图2

Thinking with Video：视频生成作为多模态推理新范式

从Thinking with Text到Thinking with Images，这些推理范式仍存在重要缺陷：

1、静态约束：图像只能捕捉单一时刻的信息，难以表达动态过程、时间变化与连续变换。

2、模态分离：文本与视觉仍被分开处理，缺少一种自然统一二者的推理载体。

研究团队注意到，视频生成模型能像人一样进行绘制、想象、模拟，有助于解决视觉推理问题。

同时，视频帧还可承载文本，从而也有望完成文本推理问题。

由此可见，Thinking with Video天然拥有多模态推理优势，研究团队对此进行了深入探索。

VideoThinkBench：综合的视频生成推理测试基准

为了全面评估视频生成模型的推理能力，研究团队构建了VideoThinkBench，共包含4149个测试样本，分为视觉任务和文本任务（图1）。

视频生成作为多模态推理新范式 | CVPR 2026图3

△图1：VideoThinkBench的任务和Thinking with Video过程

视觉任务考察几何直觉、视觉模式归纳、抽象规则归纳、空间规划与搜索，包括Eyeballing Puzzles、Visual Puzzles、ARC-AGI-2和Mazes。

这些视觉任务的样本通过程序自动化生成，并配有可验证答案，便于对视频结果进行精准评测。

文本任务则由已有基准（如MATH、MMLU、MathVista、MMMU）改编而来，包含纯文本和多模态的数学推理与通用推理。

作者在VideoThinkBench上对视频生成模型（如Sora-2、Veo 3.1）进行了评测，并将其结果与三个SOTA VLM（Gemini 2.5 Pro、GPT-5 high、Claude Sonnet 4.5）进行了对比，结果出人意料。

核心发现一：Thinking with Video让模型匹敌甚至超越顶尖VLM

研究发现，视频生成模型在视觉任务上有出色表现，总体可媲美SOTA VLM（表1）。

视频生成作为多模态推理新范式 | CVPR 2026图4

△表1：视觉任务上的表现，Sora-2竟能匹敌三个顶尖VLM

Thinking with Video能解决几何直觉推理、视觉归纳推理，甚至ARC-AGI-2等多样的视觉任务。

Eyeballing Puzzles：画图模拟，几何推理超越顶尖VLM

视频生成作为多模态推理新范式 | CVPR 2026图5

△图2：Eyeballing Puzzles任务的输入输出示例

Eyeballing Puzzles（目测谜题）分为Point / Line / Shape三种类型（图2）。

实验表明，Sora-2可在视频中模拟光线的延伸和反射，并操纵几何元素（例如点和线）来辅助推理（图3）。

视频生成作为多模态推理新范式 | CVPR 2026图6

△图3：Sora-2生成视频解决Eyeballing Puzzles，最后模型会将其答案选项标红，并在语音中说出答案

视频生成作为多模态推理新范式 | CVPR 2026图7

△图4：各模型在Eyeballing Puzzles上的表现

在多帧投票评估下（利用整个视频过程，避免最后一帧噪声），Sora-2的总体表现竟击败了三个SOTA VLM（图4），充分展现了Thinking with Video能进行画图模拟的独特优势。

Visual Puzzles：视频生成能完成归纳推理

视频生成作为多模态推理新范式 | CVPR 2026图8

△图5：Visual Puzzles任务的输入输出示例

Visual Puzzles考察模型根据颜色、形状、尺寸进行归纳推理（图5）。

问题不给选项，直接生成视频来补全缺失的颜色或形状（图6）。

视频生成作为多模态推理新范式 | CVPR 2026图9

△图6：Sora-2生成视频解决多样的Visual Puzzles

视频生成作为多模态推理新范式 | CVPR 2026图10

△图7：各模型在Visual Puzzles上的表现

在这些视觉谜题上，Sora-2也表现优秀，并在对称任务（Symmetry）中击败了Claude Sonnet 4.5（图7）。

可见视频生成模型不仅能画线模拟，还能从视觉结构中归纳和应用规律。

ARC-AGI-2：视频生成模型是Few-shot Learner

ARC-AGI-2面向更抽象的规则归纳能力，模型需要观察若干输入-输出示例，推断视觉变换规则，再将规则应用到新的网格中。

实验发现，在这一更有挑战性的任务上，Sora-2也能根据示例做出正确预测（图8），展现了从示例中学习变换规则的能力。

视频生成作为多模态推理新范式 | CVPR 2026图11

△图8：以视频生成解决ARC-AGI-2的题目

视频生成作为多模态推理新范式 | CVPR 2026图12

△表2：统一视觉输入下各模型在ARC-AGI-2上的表现

在相同的视觉输入形式下，顶尖VLM在ARC-AGI-2上表现欠佳，而Sora-2已可与之匹敌。

由此可见，视频生成模型也能成为Few-shot Learner。

进一步实验显示，增加示例还能提升视频生成模型的表现。

视频生成作为多模态推理新范式 | CVPR 2026图13

△表3：提供多个和一个示例下的Sora-2的表现

相比只提供一个示例（1-Shot），提供更多示例（Few-Shot）后，更多测试样本达到较高的像素级准确率，也就是更接近正确答案（表3）。

这一发现表明，视频生成模型的In-Context Learning值得进一步探索。

核心发现二：视频生成模型竟能进行文本推理

视频生成模型也能解决文本推理问题吗？

这让人想到不久前曝光的Gemini Omni，网友用它生成了一个在黑板上推导公式的视频，效果堪称惊艳。

视频生成作为多模态推理新范式 | CVPR 2026图14

△图9：Gemini Omni生成的公式推导视频，来自𝕏@Chetasluah

然而，研究团队在此之前就提出了让视频生成模型解决文本推理任务，并进行了系统性的评测。

视频生成作为多模态推理新范式 | CVPR 2026图15

△图10：文本任务的输入和输出以及评测方式

VideoThinkBench中的文本任务的输入由文本提示词和参考图像组成（图10）。

问题写在提示词中，也展示在参考图像里。

模型需要生成一段视频，在视频中写出解题过程（图11），并在语音中也说出最终答案。

评测时，大模型基于标准答案，分别判断最后一帧和语音中的答案是否正确。

视频生成作为多模态推理新范式 | CVPR 2026图16

△图11：在视频生成中解决GSM8K的题目

结果出人意料：

如表4，Sora-2在多个文本测试集上取得亮眼表现，比如在MATH上准确率达 92%，在MMMU上达到69.2%，尽管在更难的文本任务上离顶尖VLM有较大差距。

这一结果表明，视频生成模型很有潜力通过在视频帧中嵌入文本来进行文本推理。

视频生成作为多模态推理新范式 | CVPR 2026图17

△表4：文本任务评测结果

研究团队还进一步分析了文本任务表现是否是来源于测试集泄露。

视频生成作为多模态推理新范式 | CVPR 2026图18

△表5：在原始和改编的文本题目上的表现

改编测试数据（GSM8K与MATH），修改问题中的数值和表述进行重新测试后，团队发现Sora-2的表现并未出现下降（表5）。

说明其能力并非来自测试集记忆，而是文本任务上具有真实潜力。

当然，人工案例分析发现视频中的书写过程未必清晰可靠。

如图12，仅有13.91%的解答视频中文本过程完全正确，将近一半的过程都是无法阅读或错误的。

由此可见，模型会给出正确答案，但难以生成清晰、稳定和完全正确的推理步骤。

视频生成作为多模态推理新范式 | CVPR 2026图19

△图12：对Sora-2文本作答过程的分析

研究还分析了视频生成模型的文本能力，是否可能来源于一个前置的提示词改写模型。

视频生成作为多模态推理新范式 | CVPR 2026图20

△表6：Wan 2.5在有/无提示词改写下的表现

Wan 2.5的API可控制是否允许改写提示词。

在关闭提示词改写后，Wan 2.5在文本任务上的表现几乎降为零（表6）。

由此可见，若有提示词改写模块，则其可能在最终视频生成前就将文本题目解出。

视频生成推理的Test Time Scaling可能成为新的研究前沿

在LLM推理中，经典的Test Time Scaling方法如Self-Consistency通过多次采样和多数投票提升准确率。

研究团队发现，Thinking with Video竟也有类似的结论。

视频生成作为多模态推理新范式 | CVPR 2026图21

△图13：通过视频生成解决Arc Connect问题

在Eyeballing Puzzle的任务（Arc Connect，图13）中，只看单次生成的最后一帧，准确率为56%；改用多帧多数投票后提升到68%。

进一步，若让Sora-2生成5次视频并对结果投票，多帧多数投票准确率可直接提升至90%（表7）。

视频生成作为多模态推理新范式 | CVPR 2026图22

△表7：采样多个视频进行投票的结果

由此可见，Self-consistency能够提升视频生成模型在视觉任务上的表现。

因此视频生成模型的Test Time Scaling也将成为新的研究前沿。

小结一下

研究首次提出了Thinking with Video这一多模态推理新范式：

基于视频生成模型，以视频帧为统一媒介进行多模态推理。

在作者设计的VideoThinkBench上，视频生成模型展现出卓越推理能力。

利用绘画与想象的优势，Sora-2在视觉任务上可媲美顶尖VLM，此外还展现出书写文本来解决文本推理问题的潜力。

研究发现视频生成模型还是Few-shot Learner；Self-consistency可进一步提升视频生成推理性能。

整体来看，团队认为Thinking with Video为多模态推理开辟了无限可能。

论文链接：
https://arxiv.org/abs/2511.04570
项目网站：
https://thinking-with-video.github.io
代码仓库：
https://github.com/tongjingqi/Thinking-with-Video
数据集：
https://huggingface.co/datasets/OpenMOSS-Team/VideoThinkBench

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生🎓

感兴趣的小伙伴欢迎关注 👉

视频生成作为多模态推理新范式 | CVPR 2026图23

🌟 点亮星标 🌟

科技前沿进展每日见

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

more

江苏发文：脑机接口重点纳入2026年度前沿技术“早期验证”应用场景建设示范

脑机新声 1周前

江苏发文：脑机接口重点纳入2026年度前沿技术“早期验证”应用场景建设示范

国内首款EEG+fNIRS双模态脑机产品

脑机新声 6天前

国内首款EEG+fNIRS双模态脑机产品

世界杯与脑机接口

脑机新声 3天前

世界杯与脑机接口

通知公告|关于招募《脑机接口产业发展研究报告》参编单位的通知

脑机接口产业联盟 1周前

通知公告|关于招募《脑机接口产业发展研究报告》参编单位的通知

汽车开始“读心”？头部车企抢滩「脑机」上车，下一代交互已来

高工智能汽车 1周前

汽车开始“读心”？头部车企抢滩「脑机」上车，下一代交互已来

脑机伦理 | 昆明理工大学伏云发课题组：神经反馈技术伦理风险及规范考量

脑机接口社区 1周前

脑机伦理 | 昆明理工大学伏云发课题组：神经反馈技术伦理风险及规范考量

一场800公里的隔空象棋对弈！脑虎科技“三全”脑机系统完成临床里程碑验证

脑机接口社区 3天前

一场800公里的隔空象棋对弈！脑虎科技“三全”脑机系统完成临床里程碑验证

博睿康完成辅导，冲击“ 脑机接口第一股 ”

脑机新声 5天前

博睿康完成辅导，冲击“ 脑机接口第一股 ”

再获一证！上市公司杀入“睡眠脑机”赛道，打通量产交付闭环

脑机新声 1周前

再获一证！上市公司杀入“睡眠脑机”赛道，打通量产交付闭环

深度｜如何做好脑机接口产业“ 基础设施 ”搭建？

脑机新声 5天前

深度｜如何做好脑机接口产业“ 基础设施 ”搭建？

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号