打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
项目主页-https://worldforge-agi.github.io/
代码链接-https://github.com/Westlake-AGI-Lab/WorldForge
论文链接-https://arxiv.org/pdf/2509.15130

01-WorldForge核心优势
WorldForge是一个无需训练的3D/4D视频生成框架,它由三个紧密耦合的模块组成。
步内递归细化在推理过程中引入了一种递归细化机制,该机制在每个去噪步骤中反复优化网络预测,从而实现精确的轨迹注入。 流门控潜在融合利用光流相似性将运动与潜在空间中的外观解耦,并选择性地将轨迹引导注入运动相关通道。
双路径自校正制导比较引导和非引导去噪路径,从而自适应地校正由噪声或未对准的结构信号引起的轨迹漂移。
这些组件共同注入细粒度、轨迹对齐的制导,无需训练,实现了精确的运动控制和逼真的内容生成。
02-WorldForge落地场景
03-WorldForge基本原理

上图展示了该方法的整体流程。给定单个图像或视频帧,视觉基础模型重建场景点云,该点云沿着用户指定的轨迹进行扭曲和渲染,从而生成引导视频。
输入图像(或第一帧)也被转换为图像到视频扩散模型的文本提示和潜在表示。轨迹控制是通过一种无训练策略注入的,该策略包括IRR、FLF和DSG(,无需额外训练即可实现精确控制和高质量合成。
04-WorldForge性能评估


关注我,AI热点早知道,AI算法早精通,AI产品早上线!

禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!