效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致

头部科技 2025-10-17 19:50
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图1
文丨谭梓馨
今天,“AI教母”李飞飞的创业公司World Labs又上新了。
生成式世界模型通常会对计算量提出高要求,其规模甚至可能超出当今很多LLM的要求,但它们是未来渲染和空间智能领域值得探索的重要研究方向。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图2
World Labs这次发布的新成果名为RTFM,一个实时框架模型,RTFM会在用户与其交互时实时生成3D世界视频,更重要是的单个H100 GPU上即可运行。

单幅图像可生成的3D场景包含各种场景类型、视觉风格和效果,以及反射、光滑表面、阴影和镜头眩光等。

来看一眼网友实测效果,这是一张原始图:

效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图3

利用RTFM在办公桌上进行了一个快速的网络AR实验,生成效果直接给带入了:

效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图4
网友称赞,这真是了不起的进步,在单台H100上实现实时、一致的3D生成,突破了生成式空间AI界限的重要里程碑,它真正解决了高级世界模型中经常遇到的核心可扩展性问题之一。
如果能把它和游戏引擎联系起来,将为空间人工智能和沉浸式体验开辟无限可能。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图5
新模型背后的行业思考

李飞飞领导的World Labs一直在致力于构建能够实时重建、生成和模拟持久、交互且物理精准的世界模型,据官方介绍,RTFM在设计时围绕三个关键原则:

1、效率:RTFM仅使用单个H100 GPU即可以交互帧速率运行推理。
2、可扩展性:RTFM旨在随着数据和计算量的增加而扩展。它无需依赖显式的3D表示即可对3D世界进行建模,并采用通用的端到端架构,从大规模视频数据中学习。
3、持久性:你可以永远与RTFM互动,它构建了一个持久的3D世界,即使你在里面转身也不会出现BUG。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图6
一个月前,该公司刚推出一个Marble模型,用于构建大型的3D世界并在其中加入导航和交互的能力,而这个最新款模型更强调“轻量化”。
过去一年中,生成视频建模的进展已应用于生成世界建模,行业一大痛点显而易见:生成式世界模型属于高度计算密集型技术,其计算需求远高于如今的大型语言模型(LLMs)。
如果简单套用现有的视频生成架构来解决这一问题,生成60帧/秒的交互式4K视频流,每秒就需生成超过10万个token——其长度大致相当于首部《哈利・波特》小说的全文长度。
而要让这些生成内容在长达1小时甚至更久的交互过程中保持连贯,还需要处理远超1亿个标记的上下文信息,以当前的计算基础设施来看,这一目标既不具备可行性,在经济层面也难以实现。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图7
在人工智能领域,只有那些能随计算资源增加而能良好扩展的技术方法,往往才会会占据主导地位,从计算成本的指数级下降中获益。
于是一个问题出来了,生成式世界模型是受限于当前的硬件条件?还是如今已有办法提前体验这项技术?带着这样的思考,RTFM精心优化了推理堆栈的各个部分,运用了架构设计、模型提炼和推理优化方面的最新进展,以求在主流硬件上低功耗运行世界模型且提供最高保真度的预览。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图8
打破常规的技术思路
具体而言,技术创新方面,传统的3D图形流水线使用显式的3D表示(例如三角形网格、高斯条纹)来建模世界,然后将其渲染生成2D图像,使用手工设计的数据结构和算法来建模3D几何体、材质、光照、阴影、反射等。
几十年来,这些方法一直是计算机图形学领域值得信赖的主力,但它们无法轻易扩展到更多数据和计算。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图9
RTFM采用了不同的思路。它基于近期生成式视频建模的技术进展,训练出一个单一神经网络:该网络输入场景的一幅或多幅2D图像,无需构建任何显式的世界3D表征,就能从新视角生成该场景的2D图像。
此外,RTFM以自回归扩散Transformer的形式实现,基于帧序列运行,它在大规模视频数据上进行端到端训练,能根据先前的帧来预测下一帧。

RTFM可被视为一种“习得式渲染器”。其输入帧会被转换为神经网络激活值(即KV缓存),这些激活值会隐式地表征世界;在生成新帧的过程中,网络会通过注意力机制读取该表征,进而生成与输入视角一致的世界新视角图像。

效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图10

将输入视角转换为世界表征、再从这些表征渲染新帧的机制,均是从数据中端到端习得的,而非人工设计而来,这意味着RTFM只需在训练过程中观察反射、阴影等复杂效果,就能学会对这些效果进行建模。

通过将RTFM与Marble技术相结合,开发者可从单幅图像中构建更好的大型3D世界,RTFM还能渲染光照、反射等复杂效果,而这些能力均是从数据中端到端习得的。

效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图11
3D场景生成迎来单GPU可跑阶段

另外值得关注的是,RTFM模糊了重建生成之间的界限,这两个问题在计算机视觉领域一直被视为两个独立的问题。

当用户为RTFM提供大量输入视图时,它会倾向于重建,当提供的输入视图较少时,它将被迫进行超出输入视图范围的推断。

最后一个关键特性是持久性,当你移开视线时,已经生成的世界不会消失或发生改变,这对于自回归帧模型来说一直是一个挑战。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图12
此前,视频生成每个新帧的成本都比前一帧更高,因此模型对世界的记忆实际上受限于其计算预算。RTFM通过将每个帧建模为在三维空间中具有一个姿态(位置和方向)来规避这个问题,通过查询待生成帧的姿态来生成新的帧。
因此,RTFM模型对世界的记忆具有空间结构,它使用已姿态化的帧作为空间记忆,因此它本身所建模的世界就是一个三维欧几里得空间。
得益于上述改进,RTFM的空间记忆实现了无限的持久性,World Labs团队将这种技术称为视频生成领域的“上下文切换”:模型在不同的空间区域生成时会使用不同的上下文帧,这使得RTFM能够在长时间交互中持久化大型世界,而无需对不断增长的帧集进行推理。
官方表示,目前RTFM的技术目标是在单个H100 GPU上进行实时推理,但下一步会针对更大推理预算的更大型模型进行持续改进。
降低视频生成模型的算力需求成本是目前的一大技术趋势。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图13
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图14
同样在今天,国内的游戏大厂腾讯-混元团队和厦门大学、复旦大学的实验室合作推出一款名为FlashWorld的模型,可以通过单个图像或文本提示,同样也可在单个H20 GPU上数生成跨不同场景的高质量3D场景,比以前的方法快10到100倍。
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致图15
他们提出了一种跨模式训练后蒸馏方法,将一致的面向3D的模式分布与高质量的面向MV的模式进行匹配,这不仅在保持3D一致性的同时提升了视觉质量,还减少了推理所需的去噪步骤。
这些方法的低成本和高效性,有望推动3D世界(场景)生成应用迎来新一轮发展,感兴趣的朋友们可以都上手一试,评论区反馈实测效果如何。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU
more
苹果M5芯片登场:10核CPU、10核GPU,AI性能飙到3.5倍
效果惊艳!李飞飞公司最新成果,单GPU可跑的世界模型问世,实时、持久且3D一致
全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈
GPU贸易警示录:从暴利到薄利,智算赛道门槛浮出水面
下一代GPU,竞争激烈
单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世
OpenAI大量采购后 AMD Instinct系列GPU也已获得甲骨文订单
一周AI丨AI全面落地双11;AMD获甲骨文大额订单;Meta新框架30倍提速RAG;李飞飞世界模型单GPU可跑实时3D宇宙……
【硬件资讯】不光本代还有新显卡,未来会有更多!Intel无意放弃,仍在开发高端GPU,新的图形技术曝光!
【AI】一年4次迭代,狂堆GPU成真!微软AI冷液灌芯,散热暴涨3倍
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号