任督二脉终打通！西湖大学破壁「扩散模型×空间智能」，解锁3D/4D视频生成新篇章！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

项目主页-https://worldforge-agi.github.io/

代码链接-https://github.com/Westlake-AGI-Lab/WorldForge

论文链接-https://arxiv.org/pdf/2509.15130

为什么需要这个算法？--视频扩散模型由于其丰富的潜在世界先验，在空间智能任务中显示出巨大的潜力。然而，这种潜力受到它们有限的可控性和几何不一致性的阻碍，在它们的强先验和它们在3D/4D任务中的实际应用之间造成了差距。因此，目前的方法往往依赖于再训练或微调，这有可能降低预训练知识的质量，并导致高昂的计算成本。

这个算法能做什么？--WorldForge是一个无需训练的框架，利用预先训练的视频扩散模型进行各种3D/4D任务，如单眼3D场景生成（向上）和动态4D场景重渲染（向下），实现精确的相机轨迹控制和高质量的输出等。

这个算法效果如何？--大量实验结果验证了该方法在真实感、轨迹一致性和视觉保真度方面的优越性。这项工作为可控视频合成引入了一种新的即插即用范式，为利用生成先验进行空间智能提供了新的视角。

01-WorldForge核心优势

WorldForge是一个无需训练的3D/4D视频生成框架，它由三个紧密耦合的模块组成。

步内递归细化在推理过程中引入了一种递归细化机制，该机制在每个去噪步骤中反复优化网络预测，从而实现精确的轨迹注入。流门控潜在融合利用光流相似性将运动与潜在空间中的外观解耦，并选择性地将轨迹引导注入运动相关通道。

双路径自校正制导比较引导和非引导去噪路径，从而自适应地校正由噪声或未对准的结构信号引起的轨迹漂移。

这些组件共同注入细粒度、轨迹对齐的制导，无需训练，实现了精确的运动控制和逼真的内容生成。

02-WorldForge落地场景

02.01-3D场景生成

如上面的视频所示，该方法可以完成一些3D场景生成任务，如艺术品、AIGC内容、肖像摄影、城市漫步等。

02.02-4D场景生成/视角变换

如上面的视频所示，该方法可以用来完成输入视频的视角变换等复杂的4D场景生成任务。

02.03-4D场景生成/视频防抖

上面的视频展示了该方法在“视频防抖”任务上面的应用效果。通过观察与分析，我们可以发现：该方法可以很好的移除带有很大抖动的输入视频中的抖动信息，让整个视频变得更顺畅一些。

02.04-视频编辑

如上面的视频所示，除了上面的功能之外，该方法还可以扩展了视频编辑任务重。它可以很多的对视频中的部分目标完成增删添改操作以及视频虚拟试衣等任务。

03-WorldForge基本原理

上图展示了该方法的整体流程。给定单个图像或视频帧，视觉基础模型重建场景点云，该点云沿着用户指定的轨迹进行扭曲和渲染，从而生成引导视频。

输入图像（或第一帧）也被转换为图像到视频扩散模型的文本提示和潜在表示。轨迹控制是通过一种无训练策略注入的，该策略包括IRR、FLF和DSG（，无需额外训练即可实现精确控制和高质量合成。

04-WorldForge性能评估

04.01-主观效果评估

上面的视频展示了该方法与一些SOTA的3D/4D视频生成方法在相同输入下的生成效果。通过观察与分析，我们可以发现：

对于单视图生成3D场景任务，与现有的SOTA方法相比，该方法在新的视点下产生了更一致的场景内容，提高了图像细节、轨迹精度和结构合理性。

对于动态4D视频重拍任务，基线通常会产生难以置信的伪影（例如，平面、浮头），反映出预训练先验的使用有限。该方法引入的推理时间引导利用这些潜在的世界先验，沿着目标轨迹重新渲染逼真、高质量的内容。

04.02-客观指标评估

上表展示了该方法与多个SOTA的生成方法在静态3D/动态4D场景下的客观指标评估结果。通过观察与分析，我们可以发现：无论是在静态场景还是动态场景中，该方法都获得了最佳的得分，远优于其它方法。

上表展示了多种SOTA方法的关键信息（分辨率、推理时间、基准视频模型、是否需要训练）等。通过观察与分析，我们可以发现：该方法的不仅无需训练，而且具有最快的推理速度。

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

禁止私自转载，需要转载请先征求我的同意！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们

资讯配图