本文由闻星使用 Intern-S1、Gemini-2.5-Pro 等 AI 生成!
作为全球计算机视觉领域的顶级盛会,备受瞩目的国际计算机视觉大会(ICCV 2025)将于2025年10月19日至23日,在美国夏威夷风景如画的火奴鲁鲁(檀香山)盛大举行。
官方数据显示,会议收到了创纪录的 11,152 篇有效投稿,经过严格的同行评审,最终录用了 2702 篇高质量论文,整体录用率约为 24.2%。这一极具竞争力的录用比例,确保了会议展示的每一项工作都代表了该领域的最高水准和最前沿的探索方向。

访问地址:https://www.paperscope.ai/zh?source=iccv2025
PaperScope 已经收录上线了 ICCV 2025 所有论文,可进行 oral、highlight 等奖项筛选,本文将带大家一览其中最值得关注的 64 篇 Oral 文章。
ICCV 2025 Oral: https://iccv.thecvf.com/virtual/2025/events/oral
ICCV 2024 Oral 论文方向分布
总计 | 64 |
🚀 3D视觉与重建
(1) SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining
机构:阿姆斯特丹大学, ETH Zurich 等 亮点速览:首次基于3D高斯飞溅构建大规模场景理解模型及数据集,实现零样本3D语义分割。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2346
(2) Multi-View 3D Point Tracking
机构:ETH Zurich, 卡内基梅隆大学 等 亮点速览:首次提出数据驱动的多视角3D点追踪框架MVTracker,有效解决单目追踪的遮挡与深度模糊问题。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2244
(3) Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction
机构:慕尼黑工业大学, 牛津大学 等 亮点速览:结合3D点追踪器与传统光束平差(BA),首次实现动态场景下的高精度相机位姿跟踪与稠密重建。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2583
(4) SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling
机构:清华大学, VAST 等 亮点速览:提出稀疏结构化等值面表示SparseFlex,高效建模高分辨率、任意拓扑的3D形状,突破隐式场的水密限制。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.895
(5) EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis
机构:UCSD, Google 亮点速览:提出基于体积椭球体的精确渲染框架EVER,消除3D高斯飞溅的“弹出伪影”,实现物理精确的实时视图合成。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.580
(6) Easy3D: A Simple Yet Effective Method for 3D Interactive Segmentation
机构:Meta Reality Labs 亮点速览:提出高效3D交互式分割方法Easy3D,采用体素编码器和轻量级Transformer实现高精度、强泛化的实例分割。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2598
(7) Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image
机构:Oxford 等 亮点速览:从单张运动模糊图像中估计相机6DoF运动,通过预测运动流场和深度图实现实时、无漂移的运动估计。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2671
(8) Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis
机构:EPFL, 蚂蚁集团 等 亮点速览:提出SE-GS,通过不确定性感知的自集成机制,显著提升3D高斯飞溅在少样本视图合成中的质量。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.558
(9) Counting Stacked Objects
机构:EPFL, Stony Brook University 等 亮点速览:首次提出完整的堆叠物体3D计数框架,通过几何重建与占用率估计实现超越人类表现的精准计数。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1475
(10) Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
机构:浙江大学, 北京大学 等 亮点速览:提出ScoreLiDAR,通过双向梯度引导的扩散模型蒸馏,实现高效高质量的3D LiDAR场景补全。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.249
(11) RePoseD: Efficient Relative Pose Estimation With Known Depth Information
机构:Czech Technical University 等 亮点速览:提出RePoseD框架,利用单目深度预测系统性提升相对位姿估计的效率与精度。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2197
(12) SuperDec: 3D Scene Decomposition with Superquadrics Primitives
机构:ETH Zurich, Stanford University 等 亮点速览:提出SuperDec,通过超二次曲面基元实现3D场景的紧凑、可解释分解,赋能机器人规划与可控生成。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.867
(13) Diving into the Fusion of Monocular Priors for Generalized Stereo Matching
机构:北京理工大学 等 亮点速览:设计二进制局部排序图和全局融合模块,有效解决单目深度与视差图的对齐难题,提升立体匹配泛化性。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.192
(14) ForestFormer3D: A Unified Framework for End-to-End Segmentation of Forest LiDAR 3D Point Clouds
机构:挪威生物经济研究所 等 亮点速览:提出ForestFormer3D,一个统一的端到端森林LiDAR点云个体树与语义分割框架,泛化能力强。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2456
(15) WIR3D: Visually-Informed and Geometry-Aware 3D Shape Abstraction
机构:芝加哥大学 等 亮点速览:提出WIR3D,通过3D贝塞尔曲线和CLIP激活层引导,实现兼顾几何与纹理的3D形状抽象。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2196
(16) Uncalibrated Structure from Motion on a Sphere
机构:加州州立理工大学 等 亮点速览:首次证明并实现了相机在球面轨迹运动下的无标定运动恢复结构(SfM),让手机环拍3D重建更精准。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.741
(17) Certifiably Optimal Anisotropic Rotation Averaging
机构:Lund University, Chalmers University of Technology 亮点速览:首次实现各向异性旋转平均问题的可验证最优求解,解决了传统方法忽略测量不确定性的问题。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.136
🎨 图像与视频生成
(18) FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models
机构:Technion 等 亮点速览:提出无需反转、模型无关的文本图像编辑方法FlowEdit,利用流模型实现更高结构保真度的编辑。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2675
(19) LaRender: Training-Free Occlusion Control in Image Generation via Latent Rendering
机构:腾讯 等 亮点速览:提出LaRender,通过在潜空间引入体渲染原理,实现对图像生成中物体遮挡关系的无训练精准控制。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.545
(20) TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
机构:腾讯ARC Lab 等 亮点速览:提出TrajectoryCrafter,通过双流条件视频扩散模型,实现对单目视频的相机轨迹重定向与多视角生成。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.380
(21) Generating Physically Stable and Buildable Brick Structures from Text
机构:Carnegie Mellon University 等 亮点速览:提出BRICKGPT,首次实现从文本描述生成物理稳定且可搭建的互锁积木结构。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.390
(22) MaskControl: Spatio-Temporal Control for Masked Motion Synthesis
机构:北卡罗来纳大学夏洛特分校 等 亮点速览:提出MaskControl,首次将可控性引入生成式掩码运动模型,实现厘米级精度的时空运动控制。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1634
(23) MikuDance: Animating Character Art with Mixed Motion Dynamics
机构:武汉大学, StepFun 等 亮点速览:提出MikuDance,通过混合运动建模与混合控制扩散技术,实现高动态、场景感强的角色艺术动画生成。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1013
(24) ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
机构:浙江大学, 快手科技 等 亮点速览:提出ReCamMaster,基于单视频和大规模多相机数据集,实现对动态场景的多视角重新拍摄。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1665
(25) Dynamic Typography: Bringing Text to Life via Video Diffusion Prior
机构:香港科技大学, 蚂蚁集团 等 亮点速览:提出Dynamic Typography,利用视频扩散先验和矢量图形表示,实现语义驱动的文字动态化生成。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.750
(26) LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer
机构:新加坡国立大学 等 亮点速览:提出LayerTracer,模拟设计师的分层创作逻辑,通过DiT生成符合专业规范的可编辑SVG矢量图。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1299
(27) LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing
机构:意大利维罗纳大学 等 亮点速览:提出基于局部草图-文本对的时尚图像生成方法LOTS,通过动态条件融合解决多条件生成中的属性混淆问题。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.795
(28) NullSwap: Proactive Identity Cloaking Against Deepfake Face Swapping
机构:Nanyang Technological University 等 亮点速览:提出NullSwap,一种主动防御方法,通过身份引导的扰动在黑盒场景下高效防护Deepfake换脸攻击。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.953
(29) ROAR: Reducing Inversion Error in Generative Image Watermarking
机构:上海交通大学, 新加坡国立大学 亮点速览:提出ROAR框架,通过再生优化和失真自适应恢复网络,显著提升生成式图像水印的提取精度和鲁棒性。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.969
🧠 多模态与VLM
(30) Scaling Laws for Native Multimodal Models
机构:Apple, Sorbonne University 等 亮点速览:系统性研究原生多模态模型(NMMs)的扩展定律,证明早期融合架构优于晚期融合,并揭示MoE的模态特异性。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1224
(31) Online Reasoning Video Segmentation with Just-in-Time Digital Twins
机构:约翰霍普金斯大学 等 亮点速览:提出基于“即时数字孪生”的在线视频推理分割框架,利用LLM动态规划视觉模型,实现复杂多步推理。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1805
(32) Differentiable Room Acoustic Rendering with Multi-View Vision Priors
机构:马里兰大学 等 亮点速览:提出AV-DAR,结合多视角视觉与声学束追踪,实现物理基础、数据高效的可微分房间声学渲染。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2654
(33) Understanding Co-speech Gestures in-the-wild
机构:牛津大学 等 亮点速览:提出JEGAL模型,通过三模态联合嵌入空间,首次在弱监督下实现对现实场景伴随言语手势的语义理解。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1609
(34) GT-Loc: Unifying When and Where in Images through a Joint Embedding Space
机构:UCF, Adobe 等 亮点速览:提出GT-Loc,通过构建图像-时间-地理位置的联合嵌入空间,实现单张图像拍摄时空的同步预测。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.544
🌍 基础模型与自监督
(35) Towards a Unified Copernicus Foundation Model for Earth Vision
机构:慕尼黑工业大学 等 亮点速览:构建首个覆盖地表与大气的遥感基础模型Copernicus-FM及大规模预训练数据集,推动地球视觉研究。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.373
(36) Heavy Labels Out! Dataset Distillation with Label Space Lightening
机构:新加坡国立大学 等 亮点速览:提出HeLlO框架,通过构建轻量级图像到标签投影器,以极低存储成本实现高效的数据集蒸馏。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1311
(37) RayZer: A Self-supervised Large View Synthesis Model
机构:德克萨斯大学奥斯汀分校 等 亮点速览:提出自监督大规模视图合成模型RayZer,无需任何3D监督即可学习多视角3D感知,性能媲美有监督方法。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.141
(38) RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model
机构:中科院空天信息研究院 等 亮点速览:提出RS-vHeat,受热传导物理过程启发,构建高效、可解释的多模态遥感基础模型。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.514
(39) LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
机构:University of Tübingen 等 亮点速览:提出基于坐标交叉注意力的特征上采样器LoftUp,有效解决视觉基础模型特征分辨率不足的问题。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.252
(40) Learning Visual Hierarchies in Hyperbolic Space for Image Retrieval
机构:Amazon, 澳大利亚国立大学 等 亮点速览:首次提出在双曲空间中学习复杂视觉层次结构,无需显式层次标签即可提升细粒度图像检索性能。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.489
🤖 机器人与具身智能
(41) Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos
机构:腾讯ARC Lab, 香港大学 等 亮点速览:提出Moto,通过“潜在运动标记”作为桥梁语言,使机器人能从无标签视频中学习操作先验知识。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.797
(42) Forecasting Continuous Non-Conservative Dynamical Systems in SO(3)
机构:慕尼黑工业大学 等 亮点速览:提出SG-nCDE,在SO(3)流形上精确预测非保守力作用下刚体的旋转轨迹,突破传统方法局限。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1175
(43) Deterministic Object Pose Confidence Region Estimation
机构:国防科技大学 等 亮点速览:提出确定性6D物体姿态置信区域估计方法,显著提升计算效率并大幅压缩置信区域体积。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2258
⚡ 高效AI与模型优化
(44) Variance-Based Pruning for Accelerating and Compressing Trained Networks
机构:Uranik Berisha 等 亮点速览:提出基于方差的结构化剪枝技术VBP,通过移除低方差神经元实现高效的模型压缩与加速。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1777
(45) Importance-Based Token Merging for Efficient Image and Video Generation
机构:Stony Brook University, EPFL 等 亮点速览:提出基于重要性评分的Token合并策略,利用CFG指导动态分配计算资源,在加速同时提升生成质量。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.912
(46) Knowledge Distillation for Learned Image Compression
机构:上海交通大学, 麻省理工学院 等 亮点速览:提出基于知识蒸馏的图像压缩模型KDIC,通过阶段式模块化蒸馏框架,在保持性能同时显著降低模型复杂度。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.566
🗺️ 分割与理解
(47) E-SAM: Training-Free Segment Every Entity Model
机构:香港科技大学 等 亮点速览:提出无需训练的E-SAM框架,通过多级后处理显著提升SAM在实体分割任务中的表现,解决过分割/欠分割问题。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.298
(48) CorrCLIP: Reconstructing Patch Correlations in CLIP for Open-Vocabulary Semantic Segmentation
机构:华南理工大学, 鹏城实验室 等 亮点速览:提出CorrCLIP,通过重构补丁相关性,有效解决CLIP在开放词汇语义分割中的类间干扰问题。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1462
(49) GMMamba: Group Masking Mamba for Whole Slide Image Classification
机构:哈尔滨工业大学 等 亮点速览:提出GMMamba,结合组内掩码建模和跨组超特征采样,高效处理全切片图像分类中的局部冗余和全局表征不足。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1554
🎞️ 图像视频处理与恢复
(50) Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution
机构:三星研究院 等 亮点速览:提出DTWSR,结合扩散Transformer与小波频谱,通过捕捉多尺度频率关联显著提升超分辨率图像细节。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2534
(51) Diffusion Image Prior
机构:伯尔尼大学 亮点速览:提出DIIP,利用预训练扩散模型的隐式先验和自监督早停策略,实现无需退化模型的盲图像恢复。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2381
(52) MIORe & VAR-MIORe: Benchmarks to Push the Boundaries of Restoration
机构:多个机构 亮点速览:提出 MIORe 和 VAR-MIORe,两个新的图像恢复基准,旨在推动该领域的边界,解决现有基准的局限性。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2056
(53) Removing Cost Volumes from Optical Flow Estimators
机构:Technical University of Darmstadt 等 亮点速览:提出ReCoVEr方法,通过特定训练策略移除光学流估计器中的代价体,大幅提升推理速度和降低内存占用。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.342
(54) Learning Streaming Video Representation via Multitask Training
机构:上海交通大学, 复旦大学 等 亮点速览:提出流式视频主干网络StreamFormer,通过因果时间注意力和多任务学习实现高效、统一的时空表征。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2713
💡 可解释性AI与评估
(55) Token Activation Map to Visually Explain Multimodal LLMs
机构:香港科技大学 等 亮点速览:提出TAM,通过因果推断消除上下文干扰,为多模态大语言模型(MLLMs)提供高质量的多Token可视化解释。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2224
(56) Soft Local Completeness (SLOC)
机构:开放大学, 特拉维夫大学 等 亮点速览:重新定义XAI中的完整性概念,通过局部子区域的软优化生成更可信的归因图。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1851
(57) Automated Model Evaluation for Object Detection via Prediction Consistency and Reliability
机构:延世大学, ETRI 亮点速览:提出PCR框架,基于预测一致性和可靠性,实现无需真实标签的目标检测模型自动化评估。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.68
🧑 数字人与虚拟化身
(58) HairCUP: Hair Compositional Universal Prior for 3D Gaussian Avatars
机构:韩国首尔大学, Meta 亮点速览:提出HairCUP,构建首个支持跨身份发型迁移的3D高斯头像通用先验模型,实现面部与头发的解耦。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.841
(59) Teeth Reconstruction and Performance Capture Using a Phone Camera
机构:清华大学, 商汤科技 亮点速览:首次实现仅用手机摄像头完成个性化牙齿重建及包含牙齿的精细面部表情捕捉。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2031
(60) DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
机构:清华大学, 南洋理工大学 等 亮点速览:基于扩散模型构建强大的3D全身人体姿态先验系统DPoser-X,在多项任务中性能大幅超越现有方法。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.779
(61) FixTalk: Taming Identity Leakage for High-Quality Talking Head Generation in Extreme Cases
机构:上海交通大学 等 亮点速览:提出FixTalk,有效解决GAN基对话头生成模型在极端姿态下的身份泄露和渲染伪影问题。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1094
🔬 计算摄影与新型传感
(62) Towards Foundational Models for Single-Chip Radar
机构:卡内基梅隆大学, 博世研究院 等 亮点速览:构建迄今最大的原始雷达数据集,并训练通用雷达Transformer(GRT),证明单芯片雷达在高分辨率感知中的潜力。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.1270
(63) Spatially-Varying Autofocus
机构:卡内基梅隆大学 亮点速览:设计基于可编程光学的空间变化自动对焦系统,通过像素级相位调制实现场景全区域同时光学聚焦。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.973
(64) Event-based Visual Vibrometry
机构:多个机构 亮点速览:利用事件相机的高时间分辨率和低延迟特性,实现对物体微小振动的非接触式测量。 PaperScope 解读:https://paperscope.ai/hf/iccv2025.2314