喊了一整年的世界模型，第一次在动作前的那零点几秒，和机器人交互了起来。

点击下方卡片，关注“具身智能之心”公众号

昨天我们分享了智源大会上VLA和世界模型融合的文章，反响比预期的大。

后台有很多同学私戳过来，想再听听我们对世界模型的一些看法。讲真的，我在大会现场获得了非常多的输入，仅用一篇文章无法cover。

智源大会的世界模型专场我也去听了下，主要是因为自己对世界模型的应用还有困惑。

之前觉得WM只能生成视频，不能生成动作。那如何与世界交互呢？端侧应用怎么样呢？会不会因为参数过大而受限？

抱着对这个问题的思考，我们去参加了星源智的分享以及后面的群访，听几位创始人聊了一个多小时。

先把看到的人和发生的事交代清楚。

这次星源智来了三位创始人：CEO 刘东，前京东智驾一号位；联合创始人孙振国，智源研究院具身交互世界模型研究中心负责人，94 年；算法负责人、联合创始人何嘉伟，96 年，此前的代表工作是基于灵巧手做各种泛化目标物体的抓取。

现场还组织了群访，聊了很多关于世界模型的knowhow，也有他们发布的 ω-EVA。

几个核心的观点先分享给大家：

孙振国把世界模型分为了四类：用未来场景增强策略学习、隐空间的表征建模、数据引擎&仿真、最后是交互式世界模型（星源智自己的ω-EVA）；
作为一个智驾出身的创始人，刘东没有打算做具身全栈，给自己的定位是机器人的基础设施提供商和解决方案供应商；
长期来看，具身的落地还需要给更多的耐心，比如两三年之后，以及聚焦场景落地到生产环节形成闭环。

最让我感到惊艳的是，星源智用一块被随机打乱的华容道棋盘，交给本体的大脑 “ω-EVA”当场解析。

残局是观众现场给的，模型完全没见过。全靠大脑当场推演，一步步在大脑内部推演交互，最终把它揭开，这让我们感受到了了具身世界模型进入机器人行动决策的可能。

同时也回答了我之前的那个疑问。

喊了一整年的世界模型，

仍然站在场外

从设计的初衷和当下的应用范式上，孙振国把现有的方案划分成了四类：

第一类，是用未来场景生成去增强策略学习。

简单来说，就是让模型去生成"接下来会发生的画面或状态"，核心是利用视频生成底的能力，把生成的未来场景当做监督信号，进一步训练策略。1xWM、英伟达的 DreamZero都属于这一脉。但这类方法有个共性：参数量比较大，端侧部署的难度太大。

第二类，是面向表征学习的隐空间预测，也就是 JEPA 那条线。 和直接生成图像不同，它在隐空间里预测未来状态，目的是学出一套对环境动态更敏感的表征。杨立昆主推的 V-JEPA、LeJEPA，以及 VLA-JEPA、DINO-World 都属于这个范式。说白了，世界模型在这里更像一个"训练旁路"。辅助模型把表征学好，但它本身不直接参与最后的决策。

第三类，是把世界模型当数据引擎和模拟器使用。 通过可控的轨迹生成、大规模仿真，持续给模型供数据。比如代表性的极佳 GigaWorld-0、Ctrl-World。作为数据的补充，这类方案也有很大的价值。

横向对比这几类方法，我们可以发现一个共同的缺口：世界模型要么在训练时帮忙，要么离线仿真生成数据，唯独没实时地参与到机器人的决策过程中。

归根结底，前三类方法还停留在「看」的层面，但从不和机器人的当下觉得发生交互。观察，并不等于交互。

所以卷了一年的世界模型，绝大部分方法都还在场外。

这就是星源智 ω-EVA 的出发点，也是孙振国提到的第四类方法 —— 交互世界模型。

打个比方。前三类世界模型，像教练在赛前给你讲战术、教你训表征、给你陪练；而 ω-EVA 想做的，是在你那一拳将要抡出去的前零点几秒，还能改一改。

ω-EVA 认为现有方法很少同时做到三件事：让想象以策略自己的候选动作为条件、把想象出的结果在同一次决策内反馈回来，再联合当前状态和原始动作一起修正动作。

想要同时完成这三件事，并不容易。

然而，看到ω-EVA的思路后，觉得非常有意思。

让世界模型成为动作生成的关键元素

ω-EVA的名字本身就是它的逻辑：Envision（预演）、Verify（验证）、Act（执行）。

会上，刘东这么解释ω-EVA：它补全了在预测和动作能力方面的短板，变成了更强的模型。

算法的范式可以浓缩成一句话：先得到一个候选动作 → 在潜空间里预演这个动作会带来什么后果 → 根据后果把动作修正后再执行。

再简单点说，以始为终，谋定而后动。

如果仔细看ω-EVA的做法，可以划分成三个阶段。

第一阶段，训练一个"动作条件下的隐空间世界模型"，让模型先学会"在某个动作条件下，场景会怎么变"；为了预测地更准确，模型会被迫去关注那些和动力学相关的区域。末端执行器、被操作的物体、接触点等等。

第二阶段，在这套表征之上训一个语言条件的 flow 策略，先生成一版初始候选动作。

第三阶段是关键。将策略自己生成的初始动作，重新送回冻结的世界模型，得到这个动作专属的"想象后果"，再用一个三分支的修正器，同时看着当前状态、想象后果和原始动作，进而得到最终要执行的动作。

这个过程，就是交互。

ω-EVA整体架构图

ω-EVA 中有一句话很有意思：世界模型是一个主动的动作反馈模块，而不是被动的预测器。 被动预测器是单项的，给它画面，模型可以生成一个对未来的猜测，仅此而已。

但 ω-EVA 让世界模型和策略的候选动作「对上了话」。模型先得到一个初步的动作，再潜空间里推演一遍后果，再把后果传递回去让模型修改。

一来一回，这才叫交互。

也正因为如此，ω-EVA 全程在特征空间里推理，并不需要把未来场景解码成一段视频。这也恰恰是它能放进端侧、低延迟跑起来的前提。

这也是孙振国在群访中所强调的，以视频生成为底座的路线参数大，靠桌面GPU才能做到 7 赫兹，端侧根本部署不了。并且视频生成的目标和动作生成的目标"本质上是在打架"，如果想让视频更好看，动作的精度就会下降。

有几个数字，很有说服力。

ω-EVA模型约 1.2B 参数，没有使用任何额外的机器人数据做预训练，编码器用的是冻结的 DINOv3 和 T5。在 LIBERO 仿真基准上，完整的 Envision–Verify–Act pipeline把成功率从 Stage2 的 97.9% 提到 98.6%；在双臂的 RoboTwin 2.0 上，从 88.9% 提到 90.3%。

那星源智凭什么说这套"交互"是真有用，而不是堆了个模块上去呢？

证据在消融实验里，结果比较solid：

如果把"想象后果"的分支去掉，成功率从 98.6% 掉到 97.2%。比未修正过的 Stage2 还要低 0.7 个点；
如果把"原始动作"的分支去掉，性能掉点更厉害，只有 96.0%。换句话说，提升不是来自参数变多，而是来自"当前状态 + 候选动作 + 想象后果"这三方真的交互了起来。少一个，闭环就不成立。

ω-EVA 的技术核心，到这里基本和大家聊清楚了。

在群访现场，真正让我们坐直身子的，不只是这套算法本身，还有做出它的那群人。

以及那种在今天的具身圈里并不多见的冷静。

一个智驾老兵的转身，和背后的冷静

聊到这里，我们得回到刘东这个人身上。群访的时候，问了他一个问题，之前做自驾的，为什么要换赛道。

他给答案很迅速--并没有换赛道，智驾是弱具身，只是升级了。

星源智和很多纯学术出身的具身团队有点不一样，不同就在这位前京东智驾一号位身上。

京东智驾的底子是什么？是物流无人车。这一点，几乎可以直接解释星源智落地为什么从叉车、仓储拣选、物流装卸这些场景切入。

他真的很懂这种物流场景的 knowhow 和数据壁垒，在现场能直接感受到他对这些场景的熟稔。

刘东说何嘉伟带队做的具身叉车，从开始到第一版系统只用了两个月左右。"卖铲子"先卖给物流，不是偶然，是他的来路决定的。

更有意思的是，他也把一些被智驾验证过的方法论，迁移到了具身领域。我们梳理了一下他在现场给出的几个判断：

1）能力是升级关系。 智驾当年解决的是"在平面里避开所有物体、不和物体发生交互"；具身要在这个基础上加一层"和三维空间的物体做交互、做操作"。所以在他眼里，操作不是另起炉灶，是智驾移动能力之上的叠加。
2）数据瓶颈像极了智驾早期。 他特意把具身和大语言模型对照：大语言模型的语料能从互联网免费获取，所以资源可以投在算力上；但具身的数据互联网上找不到，需要自己下场采集。这和智驾当年要自己跑车路采，是同一种苦。
3）行业分工会复刻智驾。「类似于我们以前看自动驾驶，有些头部新势力选择自研，更多的车厂选择跟华为合作、跟 Momenta 合作」。他判断具身也会这样，自研派和采购派长期并存，最终大家算的是经济账，自己做便宜还是买现成便宜。

把这四点连起来看，我们终于懂了星源智给自己的定位 —— 具身行业“卖铲子的人”和解决方案供应商。你能明显感觉到刘东不是来学具身的，他带着一套成熟的验证过的方法论进军具身。

这是星源智的底色，也是它和很多论文型团队气质上最大的差别。不仅如此，冷静 —— 也是我们在现场很深的感受。

星源智的冷静，体现在三个"不做"上。

一是不做本体。 刘东说得很干脆：「首先我们不会做本体」。正因为不做本体，今天展台上几乎所有头部本体公司都成了它的客户。「每家本体公司都要造几千台机器人进行数采，几十家就是非常大的量」，它当那个卖铲子的人。
二是不做全栈。 有记者问，本体公司要是自己做全栈会不会挤掉你？刘东的判断很清醒：「想做全栈、从算法到本体都做的公司肯定有，但不会太多」。
三是不做视频生成路线。 这点能见取舍，视频生成是当下世界模型最热的方向，但星源智明确不碰：它端侧跑不动，而且视频生成的目标和动作生成的目标"本质上在打架"。

这很有第一性原理的感觉。

三个"不做"连起来，星源智把自己放在"具身大脑 + 端侧算力"这层上，不越界。

这是克制，也是星源智最清楚自己能做什么。

世界模型的下半场，才刚上路

世界模型这个词，已经喊了整整一年。

大部分时间它都站在机器人决策的场外，当训练信号、当数据工厂、当离线推演的工具。

ω-EVA 想做的，是让它走进"出手前那一下"，真正参与到动作里来。

坦白来说，ω-EVA 未必是终局。可它至少做对了一件事：把被大家忽略的端侧部署痛点，摆到了台面上。

世界模型迟早要从论文走进机器人的真实控制，ω-EVA 是一个想清楚了取舍，敢把世界模型放到 C 位的认真尝试。

让我们把视角拉远一点，智源大会上有太多的公司讲VLA和世界模型。

这一年世界模型最大的变化，或许不是谁的 demo 更炫，而是它正在从"生成给人看的未来"，慢慢变成"机器人用得上的反馈"。

路线还没收敛，端侧落地也才刚开始——但方向却已经清晰：世界模型的下半场，比拼的是谁能真正落到机器人的动作上。