用2D数据解锁3D世界:首个面向运动学部件分解的多视角视频扩散框架

机器之心 2025-09-22 18:23

资讯配图


张昊,伊利诺伊大学香槟分校(UIUC)博士生,研究方向涵盖 3D/4D 重建、生成建模与物理驱动动画。目前在 Snap Inc. 担任研究实习生,曾于 Stability AI 和 上海人工智能实验室实习。本项目 Stable Part Diffusion 4D (SP4D) 由 Stability AI 与 UIUC 联合完成,能够从单目视频生成时空一致的多视角 RGB 与运动学部件序列,并进一步提升为可绑定的三维资产。个人主页:https://haoz19.github.io/


资讯配图



研究背景与动机



在角色动画和 3D 内容制作中,rigging(骨骼绑定)与部件分解是实现可动画化资产的核心。然而,现有方法存在明显局限:



资讯配图


为此,我们提出核心动机:利用大规模 2D 数据和预训练扩散模型的强大先验知识,来解决运动学部件分解的问题,并进一步延伸到自动 rigging。 这一思路能够突破 3D 数据稀缺的瓶颈,让 AI 真正学会生成符合物理运动规律的 3D 可动画资产。


资讯配图


研究方法与创新


基于这一动机,我们提出了 Stable Part Diffusion 4D (SP4D) —— 首个面向运动学部件分解的多视角视频扩散框架。主要创新包括:



这一框架不仅能生成时空一致的部件分解,还能将结果提升为 可绑定的 3D 网格,推导骨骼结构与蒙皮权重,直接应用于动画制作。


实验结果


在 KinematicParts20K 验证集上,SP4D 相较现有方法取得了显著提升:



资讯配图


在 自动 rigging 任务中,SP4D 也展现出更强的潜力:



这些结果充分证明了 2D 先验驱动的思路 不仅能解决 kinematic part segmentation 的长期难题,还能有效延伸到自动 rigging,推动动画与 3D 资产生成的全自动化。


资讯配图


结语


Stable Part Diffusion 4D (SP4D) 不仅是技术上的突破,也是一次跨学科合作的成果,并且被 Neurips 2025 接受为 Spotlight。它展示了如何利用大规模 2D 先验打开 3D 运动学建模与自动 rigging 的新局面,为动画、游戏、AR/VR、机器人模拟等领域的自动化与智能化奠定了基础。


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号