效果惊艳！李飞飞公司最新成果，单GPU可跑的世界模型问世，实时、持久且3D一致

文丨谭梓馨

今天，“AI教母”李飞飞的创业公司World Labs又上新了。

生成式世界模型通常会对计算量提出高要求，其规模甚至可能超出当今很多LLM的要求，但它们是未来渲染和空间智能领域值得探索的重要研究方向。

World Labs这次发布的新成果名为RTFM，一个实时框架模型，RTFM会在用户与其交互时实时生成3D世界视频，更重要是的单个H100 GPU上即可运行。

从单幅图像可生成的3D场景包含各种场景类型、视觉风格和效果，以及反射、光滑表面、阴影和镜头眩光等。

来看一眼网友实测效果，这是一张原始图：

利用RTFM在办公桌上进行了一个快速的网络AR实验，生成效果直接给带入了：

网友称赞，这真是了不起的进步，在单台H100上实现实时、一致的3D生成，突破了生成式空间AI界限的重要里程碑，它真正解决了高级世界模型中经常遇到的核心可扩展性问题之一。

如果能把它和游戏引擎联系起来，将为空间人工智能和沉浸式体验开辟无限可能。

新模型背后的行业思考

李飞飞领导的World Labs一直在致力于构建能够实时重建、生成和模拟持久、交互且物理精准的世界模型，据官方介绍，RTFM在设计时围绕三个关键原则：

1、效率：RTFM仅使用单个H100 GPU即可以交互帧速率运行推理。

2、可扩展性：RTFM旨在随着数据和计算量的增加而扩展。它无需依赖显式的3D表示即可对3D世界进行建模，并采用通用的端到端架构，从大规模视频数据中学习。

3、持久性：你可以永远与RTFM互动，它构建了一个持久的3D世界，即使你在里面转身也不会出现BUG。

一个月前，该公司刚推出一个Marble模型，用于构建大型的3D世界并在其中加入导航和交互的能力，而这个最新款模型更强调“轻量化”。

过去一年中，生成视频建模的进展已应用于生成世界建模，行业一大痛点显而易见：生成式世界模型属于高度计算密集型技术，其计算需求远高于如今的大型语言模型（LLMs）。

如果简单套用现有的视频生成架构来解决这一问题，生成60帧/秒的交互式4K视频流，每秒就需生成超过10万个token——其长度大致相当于首部《哈利・波特》小说的全文长度。

而要让这些生成内容在长达1小时甚至更久的交互过程中保持连贯，还需要处理远超1亿个标记的上下文信息，以当前的计算基础设施来看，这一目标既不具备可行性，在经济层面也难以实现。

在人工智能领域，只有那些能随计算资源增加而能良好扩展的技术方法，往往才会会占据主导地位，从计算成本的指数级下降中获益。

于是一个问题出来了，生成式世界模型是受限于当前的硬件条件？还是如今已有办法提前体验这项技术？带着这样的思考，RTFM精心优化了推理堆栈的各个部分，运用了架构设计、模型提炼和推理优化方面的最新进展，以求在主流硬件上低功耗运行世界模型且提供最高保真度的预览。

打破常规的技术思路

具体而言，技术创新方面，传统的3D图形流水线使用显式的3D表示（例如三角形网格、高斯条纹）来建模世界，然后将其渲染生成2D图像，使用手工设计的数据结构和算法来建模3D几何体、材质、光照、阴影、反射等。

几十年来，这些方法一直是计算机图形学领域值得信赖的主力，但它们无法轻易扩展到更多数据和计算。

RTFM采用了不同的思路。它基于近期生成式视频建模的技术进展，训练出一个单一神经网络：该网络输入场景的一幅或多幅2D图像，无需构建任何显式的世界3D表征，就能从新视角生成该场景的2D图像。

此外，RTFM以自回归扩散Transformer的形式实现，基于帧序列运行，它在大规模视频数据上进行端到端训练，能根据先前的帧来预测下一帧。

RTFM可被视为一种“习得式渲染器”。其输入帧会被转换为神经网络激活值（即KV缓存），这些激活值会隐式地表征世界；在生成新帧的过程中，网络会通过注意力机制读取该表征，进而生成与输入视角一致的世界新视角图像。

将输入视角转换为世界表征、再从这些表征渲染新帧的机制，均是从数据中端到端习得的，而非人工设计而来，这意味着RTFM只需在训练过程中观察反射、阴影等复杂效果，就能学会对这些效果进行建模。

通过将RTFM与Marble技术相结合，开发者可从单幅图像中构建更好的大型3D世界，RTFM还能渲染光照、反射等复杂效果，而这些能力均是从数据中端到端习得的。

3D场景生成迎来单GPU可跑阶段

另外值得关注的是，RTFM模糊了重建和生成之间的界限，这两个问题在计算机视觉领域一直被视为两个独立的问题。

当用户为RTFM提供大量输入视图时，它会倾向于重建，当提供的输入视图较少时，它将被迫进行超出输入视图范围的推断。

最后一个关键特性是持久性，当你移开视线时，已经生成的世界不会消失或发生改变，这对于自回归帧模型来说一直是一个挑战。

此前，视频生成每个新帧的成本都比前一帧更高，因此模型对世界的记忆实际上受限于其计算预算。RTFM通过将每个帧建模为在三维空间中具有一个姿态（位置和方向）来规避这个问题，通过查询待生成帧的姿态来生成新的帧。

因此，RTFM模型对世界的记忆具有空间结构，它使用已姿态化的帧作为空间记忆，因此它本身所建模的世界就是一个三维欧几里得空间。

得益于上述改进，RTFM的空间记忆实现了无限的持久性，World Labs团队将这种技术称为视频生成领域的“上下文切换”：模型在不同的空间区域生成时会使用不同的上下文帧，这使得RTFM能够在长时间交互中持久化大型世界，而无需对不断增长的帧集进行推理。

官方表示，目前RTFM的技术目标是在单个H100 GPU上进行实时推理，但下一步会针对更大推理预算的更大型模型进行持续改进。

降低视频生成模型的算力需求成本是目前的一大技术趋势。

同样在今天，国内的游戏大厂腾讯-混元团队和厦门大学、复旦大学的实验室合作推出一款名为FlashWorld的模型，可以通过单个图像或文本提示，同样也可在单个H20 GPU上数秒生成跨不同场景的高质量3D场景，比以前的方法快10到100倍。

他们提出了一种跨模式训练后蒸馏方法，将一致的面向3D的模式分布与高质量的面向MV的模式进行匹配，这不仅在保持3D一致性的同时提升了视觉质量，还减少了推理所需的去噪步骤。

这些方法的低成本和高效性，有望推动3D世界（场景）生成应用迎来新一轮发展，感兴趣的朋友们可以都上手一试，评论区反馈实测效果如何。