ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖

新智元 2025-10-22 11:26

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图1



  新智元报道  

编辑:桃子 好困
【新智元导读】ICCV最佳论文新鲜出炉了!今年,CMU团队满载而归,斩获最佳论文奖和最佳论文提名。同时,何恺明团队论文,RBG大神提出的Fast R-CNN,十年后斩获Helmholtz Prize,实至名归。


ICCV 2025大奖公布了!

刚刚,ICCV官方组委会公布了今年最佳论文奖、最佳学生论文奖,以及对应的荣誉提名奖。

来自CMU团队因提出BrickGPT摘下了「最佳论文」桂冠,以色列理工学院团队FlowEdit拿下了「最佳学生论文」。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图2

值得一提的是,一篇曾由何恺明、张祥雨、任少卿和孙剑发表于十年前的论文,荣获Helmholtz Prize。

这篇论文堪称深度学习领域的里程碑,因提出PReLU等技术,让机器在ImageNet上识别错误率远超人类水平。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图3

今年,ICCV共收到了11239篇论文,录用论文2500+,超往届规模。

最引人注意的是,超一半作者,都来自中国(大陆50%+香港2.5%)。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图4

作为计算机视觉三大顶会之一,ICCV每两年举办一次,今年于10月19日-23日,在夏威夷檀香山举办。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图5

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图6
最佳论文:CMU成最大赢家


今年,最佳论文(也称Marr Prize)颁给了CMU团队,因开创文本到3D生成技术,打造出稳定可建的物理结构。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图7

这篇论文首次提出了一个从文本描述直接生成物理稳定、可实际建造的「积木结构模型」的全流畅方法——BrickGPT。

为此,团队构建了StableText2Brick数据集,包含超47,000个积木结构,涵盖28,000多个独立3D物体。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图8

论文地址:https://arxiv.org/pdf/2505.05469

每个都配有详细文本描述,并保证物理稳定性。

然后,他们基于此,训练了一个自回归大语言模型,通过下一token预测来推断下一块应添加的积木。

为了提升生成设计的稳定性,作者又在推理时引入「有效性检查」和「物理感知回滚」机制,利用物理定律与组装约束,实时剪枝不可行的token预测。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图9

实验表明,BrickGPT能够生成稳定、多样且美观的积木结构,并与输入文本提示高度吻合。

此外,他们还开发了一种基于文本的积木纹理生成方法,以创建带有颜色和纹理的设计。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图10

结果证明,所生成的设计既可由人工手动组装,也能通过机械臂自动搭建。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图11

最佳论文荣誉提名


ICCV最佳论文荣誉提名,也颁给了CMU团队,因创新性提出一种用于全景深成像的新型镜头与算法框架。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图12

这篇论文打破了长久以来,传统镜头「一次只能对一个平面清晰对焦」的基本限制。

具体来说,研究人员设计了一种由Lohmann透镜和纯相位空间光调制器组成的光学系统。

这使得每个像素,都能独立地对焦于不同的深度。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图13

论文地址:https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf

他们还将经典自动对焦技术扩展至空间可变场景:

利用对比度和视差线索迭代估算深度图,从而使相机能够逐步调整景深以适应场景的深度。


相较于以往的研究,最新方法直接从光学层面获取「全清晰」的图像,实现了两大关键突破:

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图14


ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图15
最佳学生论文


以色列理工学院团队拿下了ICCV「最佳学生论文」,贡献在于——利用文本到图像流模型,实现免反演的文本图像编辑。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图16

当前,基于预训练文生图(T2I)模型的图像编辑,往往需要通过反转、干预采样实现,却存在巨大缺陷。

因为单纯的反转,往往无法完美重建原始图像,导致编辑效果不理想。

而且,针对一种模型架构设计的干预采样方法,很难直接迁移到另一种架构上。

为此,研究人员提出了FlowEdit,一种用于预训练T2I流模型的文本图像编辑方法,该方法无需反演、无需优化且模型无关。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图17

论文地址:https://arxiv.org/pdf/2412.08629

FlowEdit的精髓在于,构建了一个全新的常微分方程(ODE)。

它直接在「源分布」与「目标分布」之间映射,并实现了比反演方法更低的传输成本。

论文中,通过在Stable Diffusion 3和FLUX实验,证明了FlowEdit的SOTA编辑效果。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图18

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图19

最佳学生论文荣誉提名


来自UT-Austin、Adobe、康奈尔大学团队,获得了最佳学生论文荣耀提名,因基于未知姿态图像的自监督光线学习推进3D合成而获奖。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图20

这篇论文提出了,一种无需3D标注数据即可从2D图像中学习3D场景表示的新方法——RayZer。

具体来说,RayZer将未知姿态、未经校准的图像作为输入,恢复相机参数,重建场景表示,并合成新视角。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图21

论文地址:https://arxiv.org/pdf/2505.00702

在训练过程中,RayZer仅依赖自身预测的相机姿态来渲染目标视图。

因此,无需任何相机真值标注,使其能够仅通过2D图像监督进行训练。

RayZer之所以能涌现出3D感知能力,主要归功于两大关键因素——

一个自监督框架:通过解耦相机与场景的表示,实现了对输入图像的3D感知自动编码。 


一个基于Transformer模型:其唯一的3D先验是能够同时连接相机、像素和场景的光线结构。


ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图22

在新视角合成任务上,与那些依赖真实姿态信息「oracle」方法相比,RayZer取得了更优性能。


ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图23
十年封神之作,何恺明团队获奖

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图24

Helmholtz Prize


两年一度的Helmholtz Prize由IEEE模式分析与机器智能(PAMI)技术委员会在每届ICCV大会上颁发,以表彰为计算机视觉领域做出基础性贡献的成果。

奖项以19世纪德国医生、物理学家Hermann von Helmholtz(赫尔曼·冯·亥姆霍兹)的名字命名,专门表彰十年前发表于ICCV、并对计算机视觉研究产生了深远影响的论文。

今年获奖的论文有两篇,分别是2015年何恺明、张祥雨、任少卿和孙剑发表的「Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification」,以及Ross Girshick发表的「Fast R-CNN」。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图25
ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图26

论文地址:https://arxiv.org/abs/1502.01852

本研究从两个方面探讨了用于图像分类的修正线性神经网络。

首先是,提出了一种参数化的修正线性单元(Parametric Rectified Linear Unit, PReLU),它是对传统修正单元的泛化。PReLU能够提升模型拟合效果,且几乎不带来额外计算开销,过拟合风险也极低。

其次是,推导了一种特别针对修正单元非线性特性的稳健初始化方法。从而能够直接从零开始训练极深层的修正网络模型,并对更深或更宽的网络架构进行探索。

基于PReLU网络(PReLU-nets),团队在ImageNet 2012分类数据集上取得了4.94%的top-5测试错误率。相较于ILSVRC 2014的冠军模型GoogLeNet(6.66%),性能相对提升了26%。

而这,也是在这项视觉识别挑战中,首次有研究成果超越了人类的表现水平(5.1%)。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图27
ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图28

论文地址:https://arxiv.org/abs/1504.08083

本文为目标检测任务提出了一种快速区域卷积网络(Fast R-CNN)方法。

Fast R-CNN利用深度卷积网络对候选区域进行高效分类,并引入多项革新,在提升训练和测试速度的同时,也提高了检测精度。

在训练VGG16这一深度网络时,Fast R-CNN的速度是R-CNN的9倍,测试速度则快213倍,并在PASCAL VOC 2012数据集上取得了更高的平均精度均值(mAP)。

与SPPnet相比,Fast R-CNN在训练VGG16时的速度快3倍,测试速度快10倍,且精度更高。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图29

Everingham Prize


Everingham Prize授予的是那些为计算机视觉社区做出重大贡献的研究者或研究团队。

奖项以Mark Everingham命名,旨在纪念并激励后人追随其脚步,为推动计算机视觉社区的整体发展做出贡献。

Everingham Prize每年在计算机视觉领域的顶级会议上颁发一次。偶数年于欧洲计算机视觉会议(ECCV)颁发,奇数年则于国际计算机视觉会议(ICCV)颁发。

今年获奖的,分别是SMPL Body Model团队,以及VQA团队。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图30
ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图31

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图32

Azriel Rosenfeld终身成就奖


Azriel Rosenfeld终身成就奖表彰的是在整个职业生涯中为计算机视觉领域做出重大贡献,并对该领域的发展产生非凡影响的研究学者。

今年获奖的Rama Chellappa,是约翰霍普金斯大学电气与计算机工程及生物医学工程专业的彭博杰出教授,同时兼任数据科学与人工智能专项计划的临时主任。

他在计算机视觉、模式识别和机器学习领域的建树,已对生物识别、智能汽车、法医学以及面部、物体和地形的二维与三维建模等方向产生了深远影响。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图33

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图34
大会整体


最后,再来看一下今年ICCV大会,整体的情况。

上一届ICCV 2023曾收到了8620篇论文,审稿人6990名,区域主席(AC)有311人,程序委员会(PC)有5人。

再来看今年,投稿数量激增超2600篇,审稿人、AC人数大幅增加。

可见,这一届的ICCV规模,堪比CVPR 2025。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图35

根据细分领域,今年在「图像和视频合成和生成」领域投稿量最多,录用量也是最高的。其次是「基于多视角与传感器的3D重建」、「多模态学习」等领域,成为投稿热门领域。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图36

同时,大会还公布了「桌拒」的结果——

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图37

除了2019年的最高值,今年ICCV注册参会人数再创新高。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图38

ICCV组委会成员中,有很多我们熟悉的面孔,包括谢赛宁等人。

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖图39
参考资料:
https://x.com/ICCVConference/status/1980704802691858682

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
刚刚,Anthropic上线了网页版Claude Code
Anthropic双箭齐发!浏览器写代码,打通多个科研工具,程序员与科研人的春天来了!
院士、超模、PNDbotics Adam同台央视!这场《考工记》背后的中国具身智能最高规格「价值卡位」
拆解报告:UE ELectronic富华电子65W 2C1A氮化镓充电器
Microchem J:基于Ti-Cu双金属MOFs的分子印迹电化学传感技术及其汗液皮质醇无创检测
ICCV 2025 最佳论文将花落谁家? 64 篇 Oral 速览!!!
K-Scale Labs产品与工程负责人离职!创立Gradient Robotics新公司 聚焦美国机器人与物理AI关键难题!
Dexmal原力灵机开源Dexbotic,基于PyTorch的一站式VLA代码库
高可靠性功率器件及电源管理 IC 项目可行性研究报告
刚刚,Dexbotic开源!VLA性能+46%,机器人叠盘子100%成功,统一具身智能底座
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号