ICCV 2025 中看到了 11 篇 腾讯 ARC Lab 相关论文,分享给大家!
腾讯ARC Lab致力于探索和挑战前沿技术,站在腾讯探索挑战多模态理解和生成相关前沿技术的第一线。ARC(Applied Research Center)肩负着探索和挑战智能媒体相关前沿技术的使命,旨在成为世界一流应用研究中心和行业的标杆。所属的腾讯PCG是一个集社交、流量和内容平台于一体的大型事业群,业务需求覆盖了人工智能和大数据方面几乎所有的技术。ARC因此在研究领域的广度、深度和科研产业一体化方面有着得天独厚的优势。
(1) TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

论文简介:
由腾讯ARC Lab等机构提出了TrajectoryCrafter,该工作通过双流条件视频扩散模型和混合数据策略实现单目视频的相机轨迹重定向。该方法通过动态点云解耦确定性视图变换与随机内容生成,提出双流条件视频扩散模型融合点云渲染与源视频信息,采用创新的双投影策略构建混合训练数据集,在多视角和大规模单目视频数据上验证了生成高保真视频轨迹重定向的能力。核心创新包括:1)双流扩散模型通过Ref-DiT模块实现视图令牌与参考令牌的跨注意力交互,确保几何一致性与内容连贯性;2)混合数据策略结合网络规模单目视频与静态多视角数据,通过双投影生成训练对;3)动态点云渲染结合深度估计实现精确相机轨迹控制。实验表明该方法在PSNR/SSIM/LPIPS等指标上显著优于GCD、ViewCrafter等基线,在Subject Consistency、Background Consistency等视频质量评估中提升15%以上。通过两阶段训练策略有效平衡动态场景生成与静态场景泛化能力,为单目视频的4D场景重建提供了新范式。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.380
(2) FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

论文简介:
由腾讯ARC Lab和香港大学等机构提出了FreeSplatter,该工作提出了一种无需相机位姿的高斯溅射框架,用于稀疏视角3D重建。该方法通过改进的Transformer架构,利用自注意力机制实现多视图图像令牌的信息交互,并直接解码为像素对齐的3D高斯分布,在统一参考系下同时完成高精度3D建模和相机参数估计。其核心创新在于:1)首创端到端预测像素对齐的3D高斯分布,通过射线对齐损失约束实现高效渲染与姿态优化;2)设计物体级(FreeSplatter-O)与场景级(FreeSplatter-S)双版本,分别针对不同任务优化训练策略;3)在Objaverse、ScanNet++等基准测试中,重建质量超越LGM、InstantMesh等依赖位姿的大型重建模型,姿态估计精度较MASt3R等无位姿方法提升显著;4)成功应用于多视图扩散模型生成的合成图像,为文本/图像到3D内容生成提供免位姿管理的端到端解决方案。实验表明,该方法在24层Transformer架构下,输入8×8图像patch时可实现30.443 PSNR的重建质量,姿态估计相对旋转误差低至3.902度,为稀疏视角3D重建提供了兼具精度与实用性的新范式。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.2352
(3) VisionMath: Vision-Form Mathematical Problem-Solving

论文简介:
由中科院自动化所、ARC Lab、腾讯PCG等机构提出了VisionMath,该工作针对视觉形式数学问题求解这一新任务,创新性地设计了三阶段渐进式多模态推理对齐策略,通过数学OCR能力构建、图形理解强化及视觉问题求解指令微调的分层训练范式,系统性提升模型对图文融合数学题的解析与推理能力。研究团队构建了包含1.34M数学问题OCR数据、1.15M图形理解数据及2.58M双语指令微调数据的VisionMath-IT数据集,并开发了覆盖几何、代数、函数等题型的中英双语评测基准。实验表明,VisionMath在多项指标上显著超越现有开源通用多模态大模型(如Qwen2-VL在平面几何题准确率提升24.4%)及数学专项模型(如MultiMath提升44.0%),在部分基准上达到与GPT-4o相当的水平。该工作通过严谨的数据构建与分阶段训练策略,有效解决了视觉数学题中公式识别、图形解析与跨模态推理的关键挑战,为多模态数学推理提供了新的技术路径。模型权重、数据及代码已开源。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.2321
(4) Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

论文简介:
由腾讯ARC Lab、香港大学等机构提出了Moto,该工作通过引入潜在运动标记(Latent Motion Token)作为视频内容与机器人控制之间的桥梁语言,利用自回归预训练从无标签视频中学习运动先验知识,并通过创新的共同微调策略实现机器人操作任务的高效迁移。核心贡献包括:1)设计离散化潜在运动标记器,以无监督方式将连续视频帧间的运动信息压缩为紧凑的标记序列,实现跨形态(如人类到机器人)的运动语义对齐;2)构建Moto-GPT模型,通过预测未来运动标记的自回归预训练,使模型掌握丰富的视觉运动先验,支持轨迹生成、合理性评估等能力;3)提出包含动作查询标记的共同微调机制,在保留运动标记预测目标的同时,通过可学习模块将标记序列映射为低层控制动作,显著提升数据效率。实验表明,Moto在SIMPLER和CALVIN等基准测试中超越RT-2-X、OpenVLA等模型,尤其在仅使用1%标注数据时仍保持52.5%的成功率;真实场景测试显示其在物体外观变化和视觉干扰下仍具鲁棒性;扩展实验通过整合人类视频数据进一步提升性能,验证了跨形态运动知识迁移的可行性。该工作为利用互联网规模视频数据预训练机器人策略提供了新范式。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.797
(5) Mamba-3VL: Taming State Space Model for 3D Vision Language Learning

论文简介:
由清华大学、腾讯ARC Lab、UCAS、Deepeleph、华中科技大学、上海交通大学、Anyverse Intelligence等机构提出了Mamba-3VL,该工作首次探索状态空间模型(SSM)在3D视觉语言(3D-VL)任务中的应用,通过线性复杂度架构实现了高效的空间关系建模和跨模态交互。针对传统Transformer在处理长序列3D点云数据时的二次复杂度瓶颈和简单位置编码的局限性,研究者提出Mamba Mixer模块,通过通道扭曲机制和关系优先的空间扫描策略(结合最近邻扫描NIS与最远邻扫描FIS)显式建模3D对象的空间依赖关系,并通过混合特征链实现跨模态特征融合。进一步设计实例感知动态位置适配器(IDPA),通过EdgeConv和语言调制实例适配器(LISA)动态生成实例级位置嵌入,强化局部空间关系表征。实验在ScanNet200、ScanRefer等7个基准测试中均超越现有方法,例如在ScanRefer上实现79.9%的唯一对象定位准确率,较PQ3D提升1.7%,并在机器人操作等具身AI任务中展现优异泛化能力,仅微调1%大语言模型参数即可取得显著效果。该工作为3D-VL领域提供了首个基于SSM的高效基础架构,其线性复杂度特性与空间建模能力为未来研究开辟了新方向。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.2351
(6) Scalable Image Tokenization with Index Backpropagation Quantization

论文简介:
由南京大学、清华大学和腾讯ARC Lab等机构提出了Scalable Image Tokenization with Index Backpropagation Quantization(IBQ),该工作提出了一种新型向量量化方法,通过直通估计器对编码特征与代码本间的one-hot分类分布进行梯度回传,使所有代码本嵌入与视觉编码器联合优化,解决了传统VQ方法因部分更新导致的代码本崩溃问题。IBQ首次实现了2^18规模(262,144)且256维度的超大代码本训练,代码利用率高达84%,在ImageNet上达到1.00的重建FID和2.05的生成FID,显著优于VQGAN、LlamaGen等主流方法。实验表明,IBQ通过保持代码本与编码特征分布一致性,展现出优异的扩展性:当代码本规模从1k增至262k时,重建质量持续提升;代码维度从32增至256时,利用率从92%升至96%;结合300M到2.1B参数的自回归模型时,生成效果同步增强。该方法为视觉分词器的规模化发展提供了新范式,为离散表征学习与生成模型的结合开辟了重要路径。
这篇论文针对视觉分词器扩展性不足的核心矛盾,创新性地将梯度回传机制从离散索引扩展到整个代码本分布,通过全局优化策略突破了传统VQ方法的性能瓶颈。其提出的IBQ框架不仅在ImageNet基准测试中刷新了重建与生成指标,更通过系统性消融实验验证了代码本规模、维度与模型容量的协同增益效应,为后续大规模视觉生成模型的研发提供了关键基础。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.2124
(7) NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

论文简介:
由香港理工大学、腾讯ARC Lab、香港城市大学和华中科技大学等机构提出了NormalCrafter,该工作提出了一种基于视频扩散先验的时序一致法线估计方法,通过语义特征正则化和两阶段训练策略,在开放世界视频中生成具有精细细节的时序一致法线序列。该方法的核心贡献包括:1)针对视频扩散模型直接应用导致的模糊预测问题,提出语义特征正则化(SFR)技术,通过将扩散特征与DINOv2语义特征对齐,引导模型关注几何细节;2)设计两阶段训练策略,在第一阶段通过潜在空间学习捕捉长时序上下文,在第二阶段通过像素空间微调提升空间精度;3)构建了首个支持任意长度开放世界视频的法线估计框架,在ScanNet和Sintel等基准测试中显著超越现有方法(平均角度误差降低0.8°-1.6°),同时在NYUv2等单图数据集上也达到最优性能。实验表明,该方法在保持时序一致性的同时,能有效保留物体边缘和纹理细节,为视频几何理解提供了新的技术路径。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.1616
(8) AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

论文简介:
由香港城市大学与腾讯ARC Lab等机构提出了AnimeGamer,该工作构建了基于多模态大语言模型(MLLM)的无限动漫人生模拟系统。针对现有方法依赖静态图像生成且缺乏视觉上下文一致性的问题,AnimeGamer通过引入动作感知的多模态表示来编码动态动画片段,并利用视频扩散模型解码生成高质动画视频。该方法将历史动画片段表示与角色状态更新作为输入,预测后续游戏状态,确保了跨回合的上下文连贯性与动态表现力。研究团队创新性地设计了包含视觉参考、动作描述和运动强度的三元组表征体系,并构建了基于动漫电影的自动化数据收集管道。通过GPT-4V评估与人工测评的双重验证,AnimeGamer在角色一致性(CLIP-I 0.8132)、语义一致性(CLIP-T 0.4161)及运动质量(ACC-F 0.6744)等指标上全面超越基线模型,同时保持24秒/回合的高效推理速度。该工作突破了传统生成式游戏的有限性框架,为基于动漫角色的开放式交互体验提供了新的技术范式。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.1518
(9) GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

论文简介:
由Tsinghua University、ARC Lab,Tencent PCG、HKUST、Qinghai University等机构提出了GeometryCrafter,该工作提出了一种新型点图变分自编码器(VAE),通过解耦点图表示和双编码器结构,实现了开放世界视频中高保真、时间一致的几何估计。针对传统扩散模型压缩深度值导致的远距离区域几何失真问题,研究团队设计了支持无界点图编码的VAE架构,其潜在空间与视频扩散模型兼容,可直接利用预训练生成先验。核心创新包括:1)将点图解耦为对角视野场和对数深度表示,消除像素位置依赖性;2)双编码器结构通过继承扩散模型原生编码器捕获归一化视差,辅以残差编码器嵌入剩余信息;3)引入多尺度深度损失和法向量损失增强局部几何保真度。实验表明,该方法在GMU Kitchen、Monkaa等7个数据集上均取得SOTA结果,尤其在动态场景和远距离深度估计中表现突出。通过结合MoGe等图像几何估计器输出作为每帧几何先验,模型在KITTI等驾驶场景中仍能保持完整结构细节。应用层面支持高精度3D/4D重建和深度条件视频生成,为视频编辑、虚拟现实等下游任务提供可靠几何基础。其局限性在于大模型带来的较高计算开销,但扩散版与确定性版本的双模式设计为精度与速度平衡提供了灵活选择。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.1219
(10) GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

论文简介:
由 ARC Lab, Tencent PCG 和 Institute of Automation, CAS 提出了 GenHancer,该工作通过实证研究发现"完美生成≠最优视觉表示",创新性地提出仅需轻量级生成模型即可显著增强 CLIP 的细粒度视觉能力。研究团队从条件机制、去噪配置和生成范式三个维度展开深度探索:(1) 条件机制方面,发现仅使用 CLIP 的全局类别 token 作为条件输入,可避免局部 token 导致的任务难度降低和信息泄露问题;(2) 去噪配置方面,提出两阶段训练策略,首阶段冻结视觉编码器预训练投影层和去噪器以桥接特征空间差异,次阶段微调视觉编码器增强细粒度表征;(3) 生成范式方面,验证了该方法对连续(基于流匹配的扩散模型)和离散(基于 VQ-GAN 的自回归模型)生成模型的普适有效性。实验表明,GenHancer 在 MMVP-VLM 基准上较前作 DIVA 提升 6%,在保持零样本分类性能的同时,显著增强 CLIP 在多模态大语言模型中的视觉理解能力。该方法通过理论推导证明自监督重建等价于最大化视觉与生成特征间的互信息,为生成模型增强判别模型提供了新的理论视角。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.347
(11) DepthSync: Diffusion Guidance-Based Depth Synchronization for Scale- and Geometry-Consistent Video Depth Estimation

论文简介:
由清华大学和腾讯ARC Lab等机构提出了DepthSync,该工作提出了一种无需训练的扩散引导框架,通过跨窗口尺度同步和窗内几何对齐,显著提升了长视频深度估计的尺度与几何一致性。现有方法在处理长视频时,受限于计算资源需将视频分块处理,导致不同窗口间深度尺度累积偏差,且仅依赖2D扩散先验缺乏对3D几何结构的约束。DepthSync创新性地引入双重引导机制:尺度引导通过在去噪过程的每一步对齐相邻窗口重叠区域的深度尺度,采用最小二乘优化实现跨窗口深度同步;几何引导则结合传统3D几何优化与扩散先验,利用深度重投影损失、跟踪损失、表面法线损失等多几何约束,在窗内强制对齐帧间几何结构。实验表明,该方法在ScanNet、KITTI等多场景数据集上,特别是在视频长度达590帧的Bonny数据集上,相比基线方法δ1指标提升16%,绝对相对误差降低21.3%,显著改善了长视频深度估计的尺度连续性和3D重建准确性。该方法通过扩散引导将几何约束无缝嵌入生成过程,在保持扩散模型生成质量的同时,有效解决了视频深度估计中长期存在的跨窗口尺度漂移和几何不一致难题。
PaperScope.ai 解读:
https://paperscope.ai/hf/iccv2025.158