点击下方卡片,关注“具身智能之心”公众号
昨天我们分享了智源大会上VLA和世界模型融合的文章,反响比预期的大。
后台有很多同学私戳过来,想再听听我们对世界模型的一些看法。讲真的,我在大会现场获得了非常多的输入,仅用一篇文章无法cover。
智源大会的世界模型专场我也去听了下,主要是因为自己对世界模型的应用还有困惑。
之前觉得WM只能生成视频,不能生成动作。那如何与世界交互呢?端侧应用怎么样呢?会不会因为参数过大而受限?
抱着对这个问题的思考,我们去参加了星源智的分享以及后面的群访,听几位创始人聊了一个多小时。

先把看到的人和发生的事交代清楚。
这次星源智来了三位创始人:CEO 刘东,前京东智驾一号位;联合创始人孙振国,智源研究院具身交互世界模型研究中心负责人,94 年;算法负责人、联合创始人何嘉伟,96 年,此前的代表工作是基于灵巧手做各种泛化目标物体的抓取。

现场还组织了群访,聊了很多关于世界模型的knowhow,也有他们发布的 ω-EVA。
几个核心的观点先分享给大家:
孙振国把世界模型分为了四类:用未来场景增强策略学习、隐空间的表征建模、数据引擎&仿真、最后是交互式世界模型(星源智自己的ω-EVA);
作为一个智驾出身的创始人,刘东没有打算做具身全栈,给自己的定位是机器人的基础设施提供商和解决方案供应商;
长期来看,具身的落地还需要给更多的耐心,比如两三年之后,以及聚焦场景落地到生产环节形成闭环。
最让我感到惊艳的是,星源智用一块被随机打乱的华容道棋盘,交给本体的大脑 “ω-EVA”当场解析。

残局是观众现场给的,模型完全没见过。全靠大脑当场推演,一步步在大脑内部推演交互,最终把它揭开,这让我们感受到了了具身世界模型进入机器人行动决策的可能。
同时也回答了我之前的那个疑问。
01
喊了一整年的世界模型,
仍然站在场外
从设计的初衷和当下的应用范式上,孙振国把现有的方案划分成了四类:
第一类,是用未来场景生成去增强策略学习。
简单来说,就是让模型去生成"接下来会发生的画面或状态",核心是利用视频生成底的能力,把生成的未来场景当做监督信号,进一步训练策略。1xWM、英伟达的 DreamZero都属于这一脉。但这类方法有个共性:参数量比较大,端侧部署的难度太大。
第二类,是面向表征学习的隐空间预测,也就是 JEPA 那条线。 和直接生成图像不同,它在隐空间里预测未来状态,目的是学出一套对环境动态更敏感的表征。杨立昆主推的 V-JEPA、LeJEPA,以及 VLA-JEPA、DINO-World 都属于这个范式。说白了,世界模型在这里更像一个"训练旁路"。辅助模型把表征学好,但它本身不直接参与最后的决策。
第三类,是把世界模型当数据引擎和模拟器使用。 通过可控的轨迹生成、大规模仿真,持续给模型供数据。比如代表性的极佳 GigaWorld-0、Ctrl-World。作为数据的补充,这类方案也有很大的价值。
横向对比这几类方法,我们可以发现一个共同的缺口:世界模型要么在训练时帮忙,要么离线仿真生成数据,唯独没实时地参与到机器人的决策过程中。
归根结底,前三类方法还停留在「看」的层面,但从不和机器人的当下觉得发生交互。观察,并不等于交互。
所以卷了一年的世界模型,绝大部分方法都还在场外。
这就是星源智 ω-EVA 的出发点,也是孙振国提到的第四类方法 —— 交互世界模型。
打个比方。前三类世界模型,像教练在赛前给你讲战术、教你训表征、给你陪练;而 ω-EVA 想做的,是在你那一拳将要抡出去的前零点几秒,还能改一改。
ω-EVA 认为现有方法很少同时做到三件事:让想象以策略自己的候选动作为条件、把想象出的结果在同一次决策内反馈回来,再联合当前状态和原始动作一起修正动作。

想要同时完成这三件事,并不容易。
然而,看到ω-EVA的思路后,觉得非常有意思。
02
让世界模型成为动作生成的关键元素
ω-EVA的名字本身就是它的逻辑:Envision(预演)、Verify(验证)、Act(执行)。
会上,刘东这么解释ω-EVA:它补全了在预测和动作能力方面的短板,变成了更强的模型。
算法的范式可以浓缩成一句话:先得到一个候选动作 → 在潜空间里预演这个动作会带来什么后果 → 根据后果把动作修正后再执行。
再简单点说,以始为终,谋定而后动。
如果仔细看ω-EVA的做法,可以划分成三个阶段。
第一阶段,训练一个"动作条件下的隐空间世界模型",让模型先学会"在某个动作条件下,场景会怎么变";为了预测地更准确,模型会被迫去关注那些和动力学相关的区域。末端执行器、被操作的物体、接触点等等。
第二阶段,在这套表征之上训一个语言条件的 flow 策略,先生成一版初始候选动作。
第三阶段是关键。将策略自己生成的初始动作,重新送回冻结的世界模型,得到这个动作专属的"想象后果",再用一个三分支的修正器,同时看着当前状态、想象后果和原始动作,进而得到最终要执行的动作。
这个过程,就是交互。

ω-EVA整体架构图
ω-EVA 中有一句话很有意思:世界模型是一个主动的动作反馈模块,而不是被动的预测器。 被动预测器是单项的,给它画面, 模型可以生成一个对未来的猜测,仅此而已。
但 ω-EVA 让世界模型和策略的候选动作「对上了话」。模型先得到一个初步的动作,再潜空间里推演一遍后果,再把后果传递回去让模型修改。
一来一回,这才叫交互。

也正因为如此,ω-EVA 全程在特征空间里推理,并不需要把未来场景解码成一段视频。这也恰恰是它能放进端侧、低延迟跑起来的前提。
这也是孙振国在群访中所强调的,以视频生成为底座的路线参数大,靠桌面GPU才能做到 7 赫兹,端侧根本部署不了。并且视频生成的目标和动作生成的目标"本质上是在打架",如果想让视频更好看,动作的精度就会下降。
有几个数字,很有说服力。
ω-EVA模型约 1.2B 参数,没有使用任何额外的机器人数据做预训练,编码器用的是冻结的 DINOv3 和 T5。在 LIBERO 仿真基准上,完整的 Envision–Verify–Act pipeline把成功率从 Stage2 的 97.9% 提到 98.6%;在双臂的 RoboTwin 2.0 上,从 88.9% 提到 90.3%。
那星源智凭什么说这套"交互"是真有用,而不是堆了个模块上去呢?
证据在消融实验里,结果比较solid:
如果把"想象后果"的分支去掉,成功率从 98.6% 掉到 97.2%。比未修正过的 Stage2 还要低 0.7 个点;
如果把"原始动作"的分支去掉,性能掉点更厉害,只有 96.0%。换句话说,提升不是来自参数变多,而是来自"当前状态 + 候选动作 + 想象后果"这三方真的交互了起来。少一个,闭环就不成立。

ω-EVA 的技术核心,到这里基本和大家聊清楚了。
在群访现场,真正让我们坐直身子的,不只是这套算法本身,还有做出它的那群人。
以及那种在今天的具身圈里并不多见的冷静。
03
一个智驾老兵的转身,和背后的冷静
聊到这里,我们得回到刘东这个人身上。群访的时候,问了他一个问题,之前做自驾的,为什么要换赛道。
他给答案很迅速--并没有换赛道,智驾是弱具身,只是升级了。
星源智和很多纯学术出身的具身团队有点不一样,不同就在这位前京东智驾一号位身上。
京东智驾的底子是什么?是物流无人车。这一点,几乎可以直接解释星源智落地为什么从叉车、仓储拣选、物流装卸这些场景切入。
他真的很懂这种物流场景的 knowhow 和数据壁垒,在现场能直接感受到他对这些场景的熟稔。
刘东说何嘉伟带队做的具身叉车,从开始到第一版系统只用了两个月左右。"卖铲子"先卖给物流,不是偶然,是他的来路决定的。

更有意思的是,他也把一些被智驾验证过的方法论,迁移到了具身领域。我们梳理了一下他在现场给出的几个判断:
1)能力是升级关系。 智驾当年解决的是"在平面里避开所有物体、不和物体发生交互";具身要在这个基础上加一层"和三维空间的物体做交互、做操作"。所以在他眼里,操作不是另起炉灶,是智驾移动能力之上的叠加。
2)数据瓶颈像极了智驾早期。 他特意把具身和大语言模型对照:大语言模型的语料能从互联网免费获取,所以资源可以投在算力上;但具身的数据互联网上找不到,需要自己下场采集。这和智驾当年要自己跑车路采,是同一种苦。
3)行业分工会复刻智驾。「类似于我们以前看自动驾驶,有些头部新势力选择自研,更多的车厂选择跟华为合作、跟 Momenta 合作」。他判断具身也会这样,自研派和采购派长期并存,最终大家算的是经济账,自己做便宜还是买现成便宜。
把这四点连起来看,我们终于懂了星源智给自己的定位 —— 具身行业“卖铲子的人”和解决方案供应商。你能明显感觉到刘东不是来学具身的,他带着一套成熟的验证过的方法论进军具身。
这是星源智的底色,也是它和很多论文型团队气质上最大的差别。不仅如此,冷静 —— 也是我们在现场很深的感受。
星源智的冷静,体现在三个"不做"上。
一是不做本体。 刘东说得很干脆:「首先我们不会做本体」。正因为不做本体,今天展台上几乎所有头部本体公司都成了它的客户。「每家本体公司都要造几千台机器人进行数采,几十家就是非常大的量」,它当那个卖铲子的人。
二是不做全栈。 有记者问,本体公司要是自己做全栈会不会挤掉你?刘东的判断很清醒:「想做全栈、从算法到本体都做的公司肯定有,但不会太多」。
三是不做视频生成路线。 这点能见取舍,视频生成是当下世界模型最热的方向,但星源智明确不碰:它端侧跑不动,而且视频生成的目标和动作生成的目标"本质上在打架"。
这很有第一性原理的感觉。
三个"不做"连起来,星源智把自己放在"具身大脑 + 端侧算力"这层上,不越界。
这是克制,也是星源智最清楚自己能做什么。
04
世界模型的下半场,才刚上路
世界模型这个词,已经喊了整整一年。
大部分时间它都站在机器人决策的场外,当训练信号、当数据工厂、当离线推演的工具。
ω-EVA 想做的,是让它走进"出手前那一下",真正参与到动作里来。
坦白来说,ω-EVA 未必是终局。可它至少做对了一件事:把被大家忽略的端侧部署痛点,摆到了台面上。
世界模型迟早要从论文走进机器人的真实控制,ω-EVA 是一个想清楚了取舍,敢把世界模型放到 C 位的认真尝试。
让我们把视角拉远一点,智源大会上有太多的公司讲VLA和世界模型。
这一年世界模型最大的变化,或许不是谁的 demo 更炫,而是它正在从"生成给人看的未来",慢慢变成"机器人用得上的反馈"。
路线还没收敛,端侧落地也才刚开始——但方向却已经清晰:世界模型的下半场,比拼的是谁能真正落到机器人的动作上。
这条路还很长。但至少这一次,我们看到了一群足够冷静的人,在认真地往前走。

