
北京时间周五晚间,CVPR 2026 正式公布了今年的获奖论文,许多我们熟知的研究获得了今年的奖项。
CVPR 是计算机视觉与模式识别领域公认的全球顶级学术会议,也是衡量全球高校、科研机构及学者学术水平的重要标志。在谷歌学术(Google Scholar)所有领域科学期刊 / 会议的影响力排名中,CVPR 位列第二名,仅次于《Nature》。
在研究方向上,CVPR 覆盖的范围已非常广泛,包含人工智能、具身智能、自动驾驶、多模态学习、大语言模型、AR/VR 等众多前沿且热门的方向。
今年的大会于 6 月 3-7 日在美国科罗拉多州丹佛市举行。机器之心来到了大会现场,并发来了现场报道。
CVPR 2026 数据分析
CVPR 2026 共收到 16092 篇投稿,其中 4071 篇被大会接收(highlights 141 篇;poster 3352 篇),接收率 25.3%。今天在大会颁奖典礼上又公布了更多详细的数据分析。可以看到,今年的论文数量又创新高,比去年增长了 23.71%。

历年论文提交、审稿人、领域主席数量如下:

CVPR 2026 论文作者、审稿人来源地:

投稿论文研究方向:

下面是更加有趣的一些信息。如今是 AI 时代,人们非常关注算力,CVPR 2026 也顺应潮流展示了社区中计算资源的使用情况,从 GPU 数量、内存占用,到开发计算和团队的隶属关系:

可见现在做计算机视觉研究是人均 4 块 GPU,40GB 显存起步,工业界的算力消耗一骑绝尘:

接下来就是万众期待的奖项了。
今年最佳论文奖项共有 74 篇论文入围,其中 15 篇进入决赛圈。最终,有 5 篇获奖拿到奖项。奖项包括:
1 篇最佳论文奖
2 篇最佳论文奖提名
1 篇最佳学生论文
1 篇最佳学生论文奖提名
最佳论文

获奖论文:Effciently Reconstructing Dynamic Scenes One D4RT at a Time
机构:谷歌 DeepMind、伦敦大学学院、牛津大学
论文链接:https://arxiv.org/pdf/2512.08924
动态场景的 4D 重建很难,现有方法要么把任务拆成多个模块分别处理(慢、复杂),要么无法处理动态区域的对应关系,要么两者皆有。
作者提出将范式从「碎片化的逐帧解码」转变为「高效的按需查询」,并由此引入 D4RT。如图 1 所示,模型先用编码器把整段视频压缩成一个全局场景表示,再用一个轻量解码器按需回答「视频中某个点在某个时刻的 3D 位置是什么」—— 深度图、点云、点轨迹、相机参数,全部通过同一套查询接口输出。
在动态 4D 重建与追踪任务上,该模型达到新的 SOTA,速度和精度均优于现有方法,并支持对视频全部像素进行稠密整体重建。

CVPR 2026 最佳论文的第一作者是 DeepMind 资深研究科学家 Chuhan Zhang(张楚晗),她此前在牛津大学几何研究组 (VGG)获得博士学位,导师为 Andrew Zisserman。

张楚晗的研究方向涵盖视频理解、动态 3D 场景重建以及生成模型的自动评估流程。
最佳论文奖提名 (2 篇)

获奖论文 1:SAM 3D: 3Dfy Anything in Images
机构:Meta 超级智能实验室
链接:https://arxiv.org/abs/2511.16624
研究提出了一个用于视觉基底 3D 物体重建(Visually Grounded 3D Object Reconstruction)的生成式模型,能够从单张图像中预测出物体的几何结构、纹理和布局。SAM 3D 在自然真实图像中表现优异,而这类图像通常存在普遍的遮挡和凌乱场景,此时来自上下文的视觉识别线索往往发挥着更关键的作用。
研究团队通过一个「人机协同」(Human- and Model-in-the-Loop)的管线实现了这一突破,该管线用于标注物体的形状、纹理和姿态,从而提供了规模空前的视觉基底 3D 重建数据。研究人员在一个现代化的多阶段训练框架中利用这些数据进行学习,该框架将合成数据预训练(Synthetic Pretraining)与真实世界对齐(Real-World Alignment)相结合,从而打破了 3D 领域的「数据壁垒」。
相较于近期的其他工作,该研究取得了显著的提升 —— 在针对真实世界物体和场景的人类偏好测试(Human Preference Tests)中,获得了至少 5:1 的胜率。

获奖论文 2:NitroGen: An Open Foundation Model for Generalist Gaming Agents
机构:英伟达、斯坦福大学、加州理工学院、芝加哥大学和德克萨斯大学奥斯汀分校
链接:https://arxiv.org/abs/2601.02427
该研究的核心贡献在于推出了 NitroGen,一个用于通用游戏智能体的视觉 - 动作基底模型(Vision-Action Foundation Model)。该模型在涵盖 1000 多款游戏、总计 40,000 小时的游戏试玩视频上训练而成。
该研究融入了三个核心要素:
1. 一个互联网规模的「视频 - 动作」数据集,该数据集是通过自动从公开的游戏视频中提取玩家动作而构建的;
2. 一个可以评估跨游戏泛化能力的多游戏基准测试环境;
3. 一个通过大规模行为克隆(Behavior Cloning)训练而成的统一视觉 - 动作模型。
NitroGen 在多种不同的游戏领域中都展现出了强大的能力,包括 3D 动作游戏中的战斗对抗、2D 平台游戏中的高精度控制,以及程序化生成世界中的探索。该模型还能极好地迁移至从未见过的全新游戏,相较于从头开始训练的模型,其任务成功率实现了高达 52% 的相对提升。
最佳学生论文

获奖论文:Native and Compact Structured Latents for 3D Generation
机构:清华大学、微软研究院、USTC、微软 AI
论文链接:https://cvpr.thecvf.com/virtual/2026/poster/37074
近期,三维生成建模领域取得了显著进展,生成真实感大幅提升,但现有表示方法仍存在瓶颈,难以捕捉具有复杂拓扑结构和精细外观的三维资产。
本文提出一种方法,从原生三维数据中学习结构化的潜在表示,以应对这一挑战。其核心是一种名为 O-Voxel 的新型稀疏体素结构 —— 一种同时编码几何与外观的全向体素表示。O-Voxel 能够稳健地建模任意拓扑,包括开放、非流形及全封闭表面,同时捕捉纹理颜色之外的丰富表面属性,例如基于物理的渲染参数。
基于 O-Voxel,作者设计了稀疏压缩变分自编码器,实现了高空间压缩率和紧凑的潜在空间。他们利用多样化的公开三维资产数据集,训练了包含 40 亿参数的大规模流匹配模型用于三维生成。尽管规模庞大,推理过程依然高效。同时,所生成资产的几何与材质质量远超现有模型。
最佳学生论文奖提名

获奖论文:ChordEdit: One-Step Low-Energy Transport for Image Editing
机构:广东工业大学、惠州学院、深圳大学、北京大学
论文链接:https://arxiv.org/pdf/2602.19083
一步式文本生成图像(T2I)模型的出现,带来了前所未有的生成速度。然而,将这类模型用于文本引导的图像编辑,仍然面临严重阻碍:如果强行把现有的免训练编辑方法压缩到单步推理中,往往会失败。这种失败主要表现为物体严重变形,以及非编辑区域一致性的明显丢失。其根源在于,直接在模型的结构化场上做朴素的向量运算,会产生高能量、剧烈抖动的轨迹。
为了解决这一问题,研究者提出了 ChordEdit。这是一种与模型无关、无需训练、也无需反演的方法,能够实现高保真的一步式图像编辑。他们将图像编辑重新表述为一个传输问题:在由源文本提示词和目标文本提示词所定义的源分布与目标分布之间进行传输。
基于动态最优传输理论,研究者推导出一种有原则的低能量控制策略。该策略能够得到更平滑、方差更低的编辑场,并且天然更加稳定,使得这一编辑场可以通过一次较大的积分步长完成遍历。
凭借这一有理论支撑、并经过实验验证的方法,ChordEdit 能够实现快速、轻量且精确的图像编辑,最终让这类具有挑战性的一步式模型真正具备实时编辑能力。
Longuet-Higgins Prize(朗格 - 希金斯奖)
Longuet-Higgins Prize 是 CVPR 上颁发的「时间检验奖」,表彰十年前发表且对计算机视觉领域产生深远影响的 CVPR 论文,以理论化学家与认知科学家 H. Christopher Longuet-Higgins 命名。
本年度共有两篇论文获奖。其中一篇是 ResNet 的原始论文《Deep Residual Learning for Image Recognition》,由何恺明、张祥雨、任少卿和孙剑于 2015 年撰写,2016 年发表于 CVPR。

ResNet 论文之所以经典,核心在于它解决了深层神经网络训练的核心难题。它用残差连接解决了网络层数增多时信息传递失真、梯度消失 / 爆炸的问题,其思路是让每一层同时接收上一层处理结果和原始输入并叠加后传递,让深度神经网络真正可训练。ResNet 由此成为深度学习的基础架构:十年来几乎所有主流深度网络架构都以残差连接为默认配置,覆盖视觉领域 CNN、NLP 领域 Transformer、大语言模型等各类模型。
目前,该论文的被引量已经超过 32 万。

另一篇获奖论文是 YOLO v1 的原始论文,发表于 CVPR 2016,作者是 Joseph Redmon 等人。

在 YOLO 之前,检测主流是 R-CNN 系列 —— 先找候选框(Region Proposal),再对每个框分类。这好比先让助理把照片里所有可能有人物的区域圈出来,你再逐个辨认。
YOLO 的思路是:整张图只看一次(You Only Look Once),直接输出「哪里有什么」。它把检测重新定义为一个端到端的回归问题:输入图像,直接输出边界框坐标和类别概率。
YOLO v1 在 Titan X 上跑到 45 FPS,Fast YOLO 版本甚至 155 FPS。这是第一次让「实时检测」真正可用。这种极简优雅的范式直接催生了 SSD、RetinaNet 及后续整个 YOLO 家族,至今仍是工业界部署的主流路线。
目前,该论文的被引量接近8万次。

年轻学者奖
这是计算机视觉领域面向青年学者的一个重要职业奖项。
它主要奖励博士毕业 7 年以内,已经在计算机视觉领域做出突出研究贡献的年轻研究者。这个奖的含金量在于,它看的不是某一篇论文,而是一个青年学者已经形成的研究方向、代表性成果和领域影响力。
今年获奖者是卡内基梅隆大学副教授 Deepak Pathak 和麻省理工副教授 Vincent Sitzmann。

Deepak Pathak 研究聚焦人工智能,主要横跨计算机视觉、机器学习和机器人三大方向,关注机器人如何在真实世界中学习、感知和行动。
Vincent Sitzmann 研究核心是让机器能够像人一样理解和模拟世界,代表性方向包括神经场景表示(neural scene representations)、3D 视觉、生成模型、视频建模、机器人感知与规划等。
Thomas S. Huang 纪念奖
Thomas S. Huang 纪念奖旨在表彰在计算机视觉领域的研究、教学 / 指导和服务方面堪称典范的研究人员(博士毕业至少 7 年),该奖项是为了纪念已故华裔计算机科学家黄煦涛而设立的。

今年的获奖者是康奈尔大学的计算机科学教授 Noah Snavely,他的研究方向是计算机视觉和图形学。

© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com