王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访

智能涌现 2025-12-19 15:49
王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访图1

世界模型并非一个凭空而来的概念。它的兴起,直指过去一年具身智能主流技术VLA模型所遇到的本质瓶颈。


富充

编辑苏建勋

四天前,“大晓机器人”的小红书发了一条视频,标题是:晓刚老师养了十只狗。

视频中,大晓机器人董事长,也是商汤科技的联合创始人王晓刚,站在十个不同形态的机器狗后面,他没有拿遥控器,手一挥,说着“任务已下发,出发”。

机器狗们闻声而动:有的去路面寻找车辆违停,拍照并回传;有的去城市禁飞区域排查违规无人机信号,且在找到操作者后发出语音警告。

“过去的一条狗,可能要两三个人工作人员‘伺候’。未来,一个人在远端控制室,就能管理一支队伍。” 王晓刚描述到。

在12月18日“大晓机器人”的发布会上,王晓刚也给出了大晓机器狗的落地场景:可以作为机器狗“城管”进行街面巡查,目前就正在与徐汇公安探讨这份城市治理的新方案。

王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访图2

△出发执行任务的四足狗“汪汪队”,来自不同本体品牌,背上统一搭载大晓具身超级大脑模组A1,图源:企业提供

王晓刚把“让狗突然能干活”的功劳,指向此次两项新发布:

一是具身超级大脑模组A1,相当于一个聪明的AI大脑,可以搭载于宇树、智元、云深处等不同品牌的本体。装入A1模组之后,原本只有运动能力的机器狗,也具备了“空间智能”和“自主决策”能力。

而驱动这个大脑的核心,是本次的另一个发布——“开悟”世界模型3.0。简单来说,世界模型就是在AI模型中建立了物理世界的运行规律。有了它,就像是把与世界交互的能力放进机器人大脑。

这样一来,机器人可以更快学会物理世界中的不同任务,还能适应未去过的新环境。就像是学会了“开门”这件事后,无论是家中的入户门,还是初次探店的餐厅大门,都可以打开。

除此之外,世界模型还能应用在不同机器人身上。四足狗、双足人形等等多样构型的本体,都可以通过世界模型,具备理解世界、对后续状态进行预测的能力。

不过,世界模型并非一个凭空而来的概念。它的兴起,直指过去一年具身智能主流技术VLA模型所遇到的本质瓶颈:

VLA更像一个“超级模仿者”,靠海量“画面—指令—动作”配对数据,让机器人学习特定技能;但它很难真正理解物理规律,所以换个环境、换个对象,成功率就会下降。

因此,VLA需要堆大量数据,让模型“看过”不同的案例,才能完成越来越多的任务。但当前的数据量却难以为继:自动驾驶可轻易积累数百万小时行车数据,而具身智能还需要工作人员遥控机器人采集数据,至今仍困在10万小时的量级。

世界模型则让机器人的大脑可以从“死记硬背例题”转向“掌握通用公式”,从而大幅降低对特定场景、海量真机数据的依赖。

发布会现场,《智能涌现》试用了“开悟”世界模型3.0:只需要输入一段文字描述,然后选择相机机位、不同机器人本体等信息,世界模型就会生成以这款机器人为第一视角的动作画面。

这些生成的画面与动作决策,可以教会机器人大脑与物理世界交互的方法,在背后指挥机器人完成每一次行动。

王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访图3

△现场试用中,“开悟”世界模型3.0可以根据使用者在右侧输入的空间、动作文字描述,生成画面,图源:作者拍摄

正因如此,世界模型成为近期大热的技术趋势。包括特斯拉在内,近期的技术分享中,越来越多智能驾驶和具身智能公司展示了世界模型的布局进展。

但王晓刚也强调,世界模型真要做到有效,必须有下游验证的闭环

他回忆起,2024年11月,自己就曾主导发布过智能驾驶世界模型,但彼时行业对这项技术的态度是“不太信”。

原因是,包括英伟达Cosmos世界模型在内,当时不少公司把世界模型当“数据生成器”。虽然可以在实验室里生成一堆看起来成立的场景画面,但缺少下游真实落地验证,没人能回答“这些数据到底好不好用”,很难建立信任。

王晓刚的解法,是把推出的智能驾驶世界模型放进自身的止驾算法业务里。例如与上汽智己的合作中,这项能力被用于攻克“过环岛”、“大车加塞”等高风险博弈场景。

过去采集这类数据危险又贵,甚至得协调“演员车”上路复现。商汤则可以先在世界模型里规模化生成大量场景画面与解决策略后,再用上汽智己的实车对世界模型的决策进行检验、校准,让模型能力在真实反馈里越练越准。

同样的方法论搬到具身智能上,大晓选择用“机器狗上街”做商业化第一站:四足狗硬件更成熟、进入场景的商业化路径更短,能在任务执行中验证世界模型的能力,在真实场景里持续迭代。

王晓刚也给出了大晓的商业化路线图:先用四足在道路世界跑起来,探索四足还未充分开拓的增量市场;2—3年后,通过轮式双臂机器人将业务延展到无人物流仓;再往后,则考虑双足人形与更复杂的家庭场景。

在这个过程中,大晓并非从头开始。商汤过去11年的积累,给大晓机器人的商业落地带来可复用的资源。

比如商汤旗下“方舟”视觉平台已在城市中落地大量事件检测应用,这让大晓有可能快速切入安防、巡检等场景;此外,商汤在海外市场的布局,也为大晓机器人未来卖到其他国家提供了现成的通道。

近期,《智能涌现》对王晓刚进行了专访,聊了聊他对世界模型的判断,以及大晓的技术细节。以下对话经作者整理。

王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访图4

△大晓机器人董事长王晓刚,图片:企业提供

赛道升级:VLA到世界模型

智能涌现:从VLA到世界模型的“升级”,你认为这是同一个技术方向的逐渐演变,还是一个很大的转折?

王晓刚:这条线是一脉相承的。我把世界模型、端到端、强化学习看成同一条技术链路在不同阶段的延伸。

从自动驾驶到具身智能,核心都是让模型理解并预测真实世界的演化,再把这种能力用于决策与控制。

行业的变化在于,大家开始把“模型能不能在物理世界里闭环生效”当成第一性问题,而不只是做几个演示动作。

你也能看到像特斯拉近期披露的一些细节里,世界模型被用作仿真器,这就是技术发展一路走到今天的结果。

智能涌现:你说去年11月就主导发布过世界模型,但当时大家“不相信”世界模型。后来商汤用上汽智己的智驾业务做了验证,具体验证了什么?

王晓刚:上汽智己会挑高风险、高复杂度场景来验证我们世界模型的能力,比如过环岛、大车加塞这类博弈问题。

过去在这些危险场景要采集真实数据,危险、成本高,甚至需要找演员去制造场景。但用了世界模型后,能生成更多这类场景的数据与策略,帮助智能驾驶提升相应任务的处理能力。

智能涌现:世界模型解决了哪些VLA的短板问题?

王晓刚:VLA更偏短序动作、技能的学习,通常不承载复杂的物理规律注入与长链推理。因缺少对物理世界的结构化理解,也容易“会做一些看起来对但无效的动作”。

世界模型的目标更大,它学会了环境与交互的规律,支持预测、推理、规划,并能在不同任务、场景中形成泛化。

比如VLA学会开一个白色的冰箱门以后,换成了黑色的冰箱它可能就不认识了。世界模型可以理解冰箱门是怎么被打开的,那换了一个房间、换了一台外观很不同的冰箱,它依然知道这里面的物理规律。

我们还希望把世界模型尽可能放端侧,这样也可以提升机器人从思考到执行的同步效率。

智能涌现:你为什么强调“世界模型要与强化学习结合”?

王晓刚:强化学习擅长在可反复试错的环境里找策略,但现实世界试错成本太高,所以可以把一部分试错与推演搬到世界模型里做,再把策略迁回真机。

智能涌现:Sora这种生成式世界模型,和大晓推出的具身世界模型,之间的区别是什么?

王晓刚:Sora是一个出色的视频生成器,但它本质上是一个“黑盒”。它生成的视频可能看起来很真实、酷炫,但模型内部并不理解视频里物体之间的物理关系和因果规律。

Sora没法把场景里的物体拆成可交互、可替换的对象去编辑。比如画面里瓶子、桌子和周围环境粘在一起,都是一整块“背景”,你不能把瓶子单独拿出来、换位置,再让它和其他动态对象发生真实交互。

具身世界模型要解决的是另一类问题:它不是为了生成一段好看的视频,而是为了让机器人能在真实世界里推理、规划、做决策。

比如桌子上有一堆积木,你让世界模型控制机器人把它们以最快速度搭成“ACE” 三个字母的形状。这个任务里,机器人得先理解每块积木的位置、形状、可移动性,推演出一个最优的移动序列:先动哪块、后动哪块,用什么抓取方式,才能用最少步骤完成。

智能涌现:所以大晓推出的世界模型,有哪些能力可以帮助具身智能更好地执行任务?

王晓刚:所以我们做的具身世界模型要包括三块多模块能力:

第一是多模态理解,去理解世界本身,不仅是视频的内容,还包括相机位姿、3D 轨迹、力学属性等更深层的东西;

第二是多模态生成,要能生成可训练的数据和场景,比如在一个生成的世界画面里换背景、换本体、换机械臂;

第三是多模态预测,比如我下达指令是“拿起手机”,但它要能预测用左手和右手会有不一样的动作轨迹。

而且,我们的平台允许用户选择不同机器人本体。因为你最终是要让机器人“去干活”的——你在生成仿真数据、构建训练场景时,要对应到具体本体,才能把世界模型真正接进下游训练闭环里。

智能涌现:你如何判断一个世界模型好不好?

王晓刚:行业有一些Benchmark,但我更看重影响力和应用解决问题的能力

单看榜单不够,要看能不能跟机器人系统结合、在真实问题里被大量使用、持续迭代。我们也会把世界模型开源,让大家用起来。用得多、能解决问题,本身就是一种更硬的评价体系。

王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访图5

△搭载大晓模组的机器狗可以识别路口红灯,实现自主导航、避障,图片:企业提供

世界模型的数据方法论

智能涌现:“开悟”世界模型3.0包含一个怎样的架构?训练数据从哪里来?

王晓刚:我们把架构拆成三个层次,不同的层次采集不同的数据

1)最底层是对这个世界的描述。比如为什么是苹果熟了会掉下来,这里面它的物理规律是什么。这些关于世界物理规律的描述都是文本的。

2)第二个层次是人类行为,即人如何与这个物理世界交互。要让模型理解机器人跟物理世界交互的时候,位姿是怎么变的;施加的力是什么样的;触觉是怎样的等等。

这是以人为主体进行的数据采集,比如让人头戴摄像机,拍摄第一视角的视频;或者人戴上数采手套去捕捉手部动作;周围也有摄像头进行第三视角的拍摄。从不同的视角把人与世界交互的动作记录下来。

3)第三个层次真机动作。具体而言,有些本体是十几个自由度,也有几十个自由度的本体,它们所看到的世界是不一样因此。因此,也要再配合采集不同本体的真机数据。

智能涌现:为什么你们强调主要的数据要“以人为中心”采集,而不是“以机器为中心”?

王晓刚:以机器人为中心会带来一个问题:不同构型本体的数据难以跨本体复用,而且人操作机器人做动作、采数据效率非常低。

但人自己做动作的数据更容易规模化采集。所以我们先采人的数据,训练一个有物理常识的大脑,再迁到不同机器人上。

智能涌现:有了世界模型以后,对真机数据的需求似乎可以减少?到底还需要多少真机数据?

王晓刚:截止到现在,自动驾驶里真实数据精挑数据能做到数百万小时,而机器人真机采集数据往往只有1万到10万小时。

但如果先用人体和环境数据做大盘,再用少量真机数据校准,真机部分可以从万小时级别进一步往下压。很多情况下不必额外大规模采,只要把现有真机数据放进去即可。

智能涌现:物理规律那么多,世界模型中如何全部覆盖这么多的知识?

王晓刚:物理规律不可能无条件穷尽,所以世界模型一定有场景边界。比如做自动驾驶不关心家庭内的场景,做家庭场景的不关心海里苹果怎么漂。

大晓的做法是先从身边道路开始做起,中期做无人物流仓,未来再扩到家庭,逐步扩大边界。

王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访图6

△大晓机器狗在识别违停车辆,图片:企业提供

从街上的四足狗先跑通商业化

智能涌现:大晓这次发布的“大脑模组”是什么?包含什么?

王晓刚:模组可以理解为一个盒子:集成传感器、通信、计算等能力,用来把世界模型能力装到本体上。

模组也包括全景相机,这可以提升视野,检测很多周围世界里的事件。

智能涌现:为什么先选机器狗的形态承载这个模组,而不是直接研发人形?

王晓刚:机器狗的技术更成熟,稳定性更高,我们希望用它先进入真实场景跑起来。

智能涌现:大晓要做像苹果的软硬一体,还是更开放的生态?

王晓刚:我们会做软硬一体。但和苹果不同之处在于,苹果的软件和硬件都只给自己用,我们会选择性自研关键部分,也需要生态合作伙伴。

具体而言,自己能做好的就做,借助生态更快的部分就去合作。关键是最终交付的是可用的产品方案,把成本降下来,把稳定性和安全性提上去。

智能涌现:大晓未来的商业计划,更偏向把世界模型卖给本体厂商,还是直接面对场景客户?

王晓刚:我们会希望直接进入场景。

一来,场景客户这边我们更熟,商汤在城市、文旅等场景做了多年,知道客户需求是什么样的。二来,很多本体厂商时间短,也不一定愿意投入资源进场景。

所以我们更有条件直接打场景,并利用既有资源把进入场景的成本摊薄。

王晓刚和他的“世界模型”:一人管十狗,先让四足机器人上街干活|智能涌现专访图7

△通过轮式双臂机器人将业务延展到无人物流仓是大晓的未来商业规划,目前正与合作本体厂商进行该场景训练,图片:企业提供

智能涌现:大晓和具身本体公司之间,既可以合作又可能存在竞争,怎么协调?

王晓刚:当下最大的问题还不是竞争,因为场景还没完全打开。

我们在策略上以场景为导向,优先找增量:不去抢别人已经稳定跑通的存量,比如电力巡检等。找到场景后,本体厂商反而愿意配合,因为他们过去不敢投入产能,本质也是不确定场景与订单量。

智能涌现:大晓主要To B还是To C?

王晓刚:先做to B。

To C市场的量确实巨大,但正因如此,它对产品的可靠性、安全性和耐久性有着极其苛刻的要求。

这不是说技术原理上做不到,而是整个产业链在没有明确的大规模应用场景驱动前,不愿意也没有动力去投入巨大的成本来攻克这些工程和质量难关

所以,我们的策略是先通过To B场景,来驱动整个产业链的成熟。在智慧城市、园区管理、文旅导览等这些对自主移动能力有迫切需求的领域,机器狗作为一个可管理的“数字员工”,它的价值是明确的,并且能够容忍一个逐步迭代和优化的过程。

智能涌现:会考虑做出海吗?

王晓刚:会。更像跟着体系走,我们在东南亚、中东等有海外资源和团队,可以顺势推进。

 

封面来源官方提供

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
不满足于跳舞踢球!蚂蚁ATEC如何推动机器人走向真实物理世界?
大摩预测了25家人形机器人公司将主导行业,没有宇树、智元
Seeds | 银河通用机器人完成3亿美元新一轮融资
大疆系创业公司璇玑动力获近亿元天使轮融资,打造四足机器人新势力
在宁德时代落地,全球首条人形机器人电池PACK生产线来了
深沪两家细分赛道机器人,各斩获新一轮融资!
猛料,雷军下一站或将是机器人
人形机器人的尴尬生意:订单超35亿,交付不足千台
人形机器人如何破解非结构化环境下行走难题?
报价哄抬至1亿元!宇树、智元被曝竞逐2026春晚资格,智元机器人回应;京东斥资超34亿港元在香港买楼;某车企被曝下午三点半就下班
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号