全球首个 “自进化” 5D世界模型到底是一个什么叙事？

点击下方卡片，关注“具身智能之心”公众号

近日，北京大学 EvoPhys 团队推出首个以“人”为中心的“场景级万物可控” 5D世界模型 EvoPhys-World，基于摩尔线程全国产算力底座，针对世界模型、具身智能与物理世界仿真，团队首次将 AI 生成世界从“可观看、可漫游，浅交互”的阶段，推进到“可操纵、深交互、自进化”的新阶段。

项目主页: https://evophys.com

智能下一站：

从 “看见世界” 到 “撬动世界”

过去一年，世界模型成为 AI 领域最受关注的方向之一。以 Genie3、Lingbot-World、Marble 等为代表的一系列工作，已经能够构建连续、逼真的虚拟世界，并支持智能体在孪生出的场景中进行观察、预测与漫游。

但一个关键问题始终存在：

这些世界大多仍然只能“看”，不能真正“动”。

也就是说，模型可以生成一个场景，可以让视角在场景中移动，却很难真正理解场景中物体的物理属性，更难让“人”或“机器人”与物体发生符合物理规律的交互。轻轻一推，杯子会滑走、晃动，还是翻倒？伸手一拿，物体会被顺利拿起，还是从手中滑落？拉开抽屉时，里面的物品会不会跟着移动？按下会议室门口开关，灯光会不会随之亮起或熄灭？换一个力度、角度，会不会产生不同的反馈？

“反物理”事实推演生成

如果世界模型只能生成“可观看”的世界，那么它更像是一个视觉播放器；而如果世界模型能够理解动作、物体、接触、因果与反馈，它才有机会成为机器人和智能体的“世界引擎”, 从 “看见世界” 到 “撬动世界”。

如何“撬动世界”:

将范式从 3D 升维到 5D

北京大学 EvoPhys 团队提出的核心判断是：

世界模型的本质，是对超维空间的模拟。

3D World Model 关注的是空间中的世界：场景长什么样，物体在哪里，空间结构如何组织。4D World Model 则在三维空间之上加入时间维度：世界如何随时间变化，下一刻会发生什么，过去、现在和未来如何连接。

但对于真正的世界模型来说，仅仅看到空间和时间还不够，它还需要理解：

物体在不同平行宇宙下的所有状态
不同选择会把世界推向哪些不同未来
不同未来的预演又将如何影响当下的决策

这正是 EvoPhys 团队进一步迈向 5D World Model 的原因。

这个模型的本质也可以借用《星际穿越》（Interstellar， 2014）中的一幕来说明。

五维超立方体空间

影片结尾，库珀进入五维超立方体空间，那里不是一个普通房间，而是同一个空间在时间维度上的无数切片，对于三维世界中的人来说，时间只能向前流动；但在高维结构中，时间像空间一样被展开。

库珀可以沿着时间穿梭，看到女儿墨菲（Murph）房间在不同时刻的状态，而 EvoPhys-world 进一步关注的是 5D，它不只是观察时间线，而是要理解和主导不同世界线的“命运”。就像库珀并不是简单地旁观时间，而是通过引力向女儿传递信息，闭环了人类文明的未来走向。

通过控制时间的弦传递信息

EvoPhys 所追求的 5D World Model，也不仅要看见世界如何演化，更要能够通过动作影响世界的演化，并在多种可能未来中选择更优路径。

它不仅建模三维空间，也建模时间、动作、记忆、因果与价值。它不只是复现世界的外观，更要理解世界的运行方式；不只是生成某一个未来，更要在多个可能未来中进行想象、评估和选择。

最终，世界模型从 3D 到 4D，再到 5D 的演进，本质上也是 AI 从“看见世界”到“预测世界”，再到“改变世界”的演进。

一个基模，两种形态，自主进化

EvoPhys-World 基础模型着眼于打造生成与理解一体化的新一代 5D 世界模型。

状态理解、动作理解、未来预测、长期记忆和策略生成统一到同一个基础模型中，让世界模型不再只是“生成下一帧视频”，而是具备对物理世界进行记忆、推演、交互和决策的能力。

EvoPhys-World 模型架构图

首先，EvoPhys-World 以 Latent Memory Pool（4D ST-Memory）作为长期时空记忆池，用于保存场景在不同时间与时间状态下的隐式记忆。模型通过时空重要性机制，从 4D 历史记忆中选择并压缩关键隐式状态，形成作为推理时记忆，作为后续世界推演与动作生成的核心上下文，保证“空间一致性”与“因果一致性”。

其次，EvoPhys-World 使用并行生成架构，Unified Token Chunk 输出范式，搭载创新混合注意力机制，在统一隐式状态-动作空间中进行 Unified State-Action Token 并行推演，原生并行完成 (1) Next-State Prediction，即预测下一时刻的世界状态，让模型能够从当前状态和动作出发，推演场景接下来会如何变化; (2) Next-Action Prediction，即预测下一步动作，让模型不仅能理解世界如何演化，还能进一步预演智能体接下来应该如何行动。

再者，EvoPhys-World 采用 “双模式螺旋” 推理生成机制, 隐空间中持续滚动推演世界状态和动作策略, 支持小时级、场景级的未来世界交互决策与预演。

此次发布的基础模型具有两个核心形态： (1) Model as World Engine：万物可孪生，物理可交互。(2) Model as World Policy：世界可预演，万物可操控。这两个形态共同构成了一个从“生成世界”到“操控世界”的完整闭环, 实现“一个基模-两种形态”的自进化链路。

World Engine :

万物可孪生，物理可交互

模式1: Model as World Engine 信息流

在 Model as World Engine 形态下，模型可以基于真实场景构建可持续演化的场景级世界记忆，并生成未来想象。它不仅能够生成新场景中的任意轨迹漫游，还能够模拟场景中任意物体交互，并进一步支持任意场景移动操纵的未来生成。

Demo1: 任意场景 “任意轨迹漫游”

Head Pose 控制场景漫游1

Head Pose 控制场景漫游2

Demo2: 任意场景 “长时动作交互”

Head Pose + Hand Pose 控制物体交互1

Head Pose + Hand Pose 控制物体交互2

Demo3: 任意场景 “移动操纵交互”

Head Pose + Hand Pose 控制移动操纵1

Head Pose + Hand Pose 控制移动操纵2

这意味着，模型并不是简单地“看见一个世界”，而是在内部形成关于这个世界的空间记忆和物理想象能力。

给定一个真实场景，模型可以记住空间结构；给定一段轨迹，模型可以想象视角如何移动；给定一个手部动作，模型可以生成物体如何响应；给定一个操作目标，模型可以预测未来场景如何变化。

这就是“万物可孪生”的关键含义：不是对世界做静态复制，而是构建一个可以继续演化、可以被动作驱动、可以被物理交互改变的动态世界副本。

World Policy : 世界可预演，万物可操控

如果说 World Engine 解决的是“如何孪生和想象世界”，那么 World Policy 解决的就是“如何在世界中行动”。

模式2: Model as World Policy 信息流

EvoPhys 的另一个关键突破，是在 Action Space 上采用了以“人”为中心的标准动作表示。传统具身智能系统往往以机器人硬件为中心定义动作空间，EvoPhys 则选择了一条不同的路线：模型学习的不是某一台机器人的动作，而是“人如何与世界交互”。

具体来说，模型将第一视角下的人类观察、头部姿态、双目视觉、手部骨骼点、手势动作以及手与物体之间的接触关系，作为更通用的动作与交互表征。这样的 Action Space 天然对齐人类理解和操控物理世界的方式，也让模型能够直接从大规模原始无标注人手 EGO 数据中学习。

EvoPhys 团队使用 Unity 搭建了一个简单的办公场景，让模型在“标准人类动作空间” (Human Action Space) 进行动作预测, 模型在隐式空间进行动作-状态推理，解码出 “标准人类动作块” (Human Action Chunk)。输入指令为“在文件上进行盖章”，模型预测推理动作如下:

模型通过生成“人类动作块”实现人手操纵

在 Model as World Policy 形态下，模型进一步从“想象世界”走向“操控世界”。它可以把头部姿态、手部骨骼点等人类动作与感知信息，重映射到真机灵巧手控制中，使虚拟场景中的交互能力迁移到真实机器人操作任务。

“人类动作块” 重映射到任意灵巧手本体

更重要的是，这一过程不再依赖大量真实机器人采集数据。模型能够通过孪生场景进行虚拟交互，再反哺真实世界中的机器人操作，从而显著降低具身智能数据采集成本。这让世界模型不再只是生成模型，而开始具备人类策略能力：它不仅能够想象未来，还能够基于未来想象选择动作。

“数据-模型-交互” 闭环，实现螺旋自进化

一体化模型 “自我进化” 信息流

相比以往仅仅追求生成效果的世界模型，EvoPhys 团队更进一步验证了完整闭环：数据进入模型，模型生成可交互世界，交互结果继续反哺模型。

这形成了“数据—模型—交互”的闭环，也首次验证了模型基于 “万物可孪生” 和 “万物可操纵” 两种形态实现螺旋自进化的可能性。

模型涌现出不同 “世界线” 推理预演能力

有意思的是，EvoPhys-World 在固定隐式记忆下，出现了对不同“世界线”的推理预演能力。模型可以根据不同动作条件，预演多种可能的未来结果：手从不同方向接近纸杯、选择不同目标、推动或翻转物体，并预测桌面状态如何变化、杯中物品的位置关系。

不同交互可能性的 “因果预演”

这说明模型不是简单生成固定视频轨迹，而是在理解场景、动作与物理交互后，通过因果推演不同“世界线”。

同一个 “现在”，因为不同 “动作” 走向不同 “未来”。

这种能力正是 5D World Model 的关键体现：模型不仅能记住世界，也能想象世界；不仅能预测下一刻画面，更能围绕动作、物体和物理交互，预演多条可能的世界线。

为什么这是 “以人为中心” 的世界模型？

EvoPhys 所提出的世界模型，并不是简单地模拟一个静态世界，而是围绕“人”与世界的交互来建模。

它关注的是：

“人” 如何观察世界；
“人”如何记忆场景；
“人”如何用手与物体交互；
“人”如何根据物体反馈调整动作；
“人”如何在动态环境中形成计划和决策。

因此，这一模型不是纯粹的视觉生成模型，也不是单一的机器人控制模型，而是一个以人类认知和交互方式为核心的场景级世界模型。

它试图回答一个更底层的问题：AI 要真正理解物理世界，是否必须先理解人如何在世界中行动？

北大 EvoPhys 团队给出的答案是：是的 !

EvoPhys 数采-遥操-机器人三位一体传感器模组

EvoPhys 以人为中心的数据管线

因为机器人并不像汽车一样即使没有自动驾驶也已经走进千家万户，所以基于真机数据构建具身世界模型的方式注定不标准、高成本、难拓展，而人类相对是标准的，人类才是那个大规模部署在社会生产中的“通用机器人”，人类对物理世界的认知几乎都来自于第一人称的感受、操作与交互体验之中，所以整个物理Ai的启动最重要的就是大规模人类数据。通过将 action space 对齐到人的标准动作表示，并利用原始无标注人手 EGO 数据，EvoPhys 让世界模型第一次具备了从“人的交互经验”中学习世界规律的能力。

国产 GPU 算力助力 “世界模型” 前沿探索

值得一提的是，本次 EvoPhys-World 的训练与研发探索，得到了摩尔线程全国产 GPU 技术栈的算力支撑。面向 4 万小时纯人手 EGO 数据，EvoPhys-World 需要在长时序第一视角交互数据中同时建模时空记忆、状态预测、动作预测、物理交互与策略演化，对训练稳定性、数据吞吐和软硬件协同效率提出了极高要求。摩尔线程基于全国产算力平台，为这一以“人”为中心的场景级万物可控世界模型提供了关键算力底座，通过国产软硬件深度协同，支撑模型在“万物可孪生”与“万物可交互”两种形态上的持续演进。未来，摩尔线程也将与高校及产业伙伴一道，推动具身智能核心技术突破与产业高质量发展。

结语

世界模型的下一站，是可控制、可交互、可进化

世界模型的竞争正在从“谁生成得更逼真”，走向“谁更懂物理、谁更会交互、谁能自我进化”。北大 EvoPhys 团队此次推出的以“人”为中心的“场景级万物可控”世界模型，给出了一个新的答案：世界不应只是被 AI 看见，也应该被 AI 理解、操控和改变。

从“万物可孪生”到“万物可操纵”到“自我进化”，从“原始无标注人手 EGO 数据” 到 “数据-模型-交互” 闭环，从 “人的标准动作” 表示到 “具身任务验证”，这项工作正在把世界模型推向一个更接近物理现实、更接近人类交互、更接近通用智能的新阶段。

END