来源:RoboX
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

作者 / Robo小曹
演讲者:自变量机器人创始人、CEO - 王潜
演讲场合:2025.10.20 — IROS美团机器人研究院学术年会
RoboX将该场演讲内容整理如下:
有很多人认为,具身智能是一个AI应用,就是「把Deepseek塞到宇树里」。但是王潜和自变量完全不认可这一观点。
在刚进入机器学习领域时,他就认为大方向是有问题的:神经网络看了一万只狗的静态图片后,才能识别狗。但人可能只要第一次看到狗,之后就都能认识狗。
尤其在做机器人之后,他认为必须要采用完全脱离静态数据的方法,因为物理世界有一个非常「糟糕」的特点,就是它的随机性非常大,这在虚拟世界中是不会有的。

比如在某些特殊的桌布上,用相同的角度和力度推十次杯子,十次可能都会停在不一样的地方。
自变量正在做的,是建设物理世界基础模型——它完全独立于虚拟世界中的语言模型、多模态模型。
“要在物理世界做机器人,CV(Computer Vision)的某些部分需要真正脱离静态数据的方法。”

为何必须脱离静态数据?
如今,机器人的Locomotion已经做得很好了,导航也进入到了收敛阶段,但是Manipulation才刚刚起步。
“因为Manipulation和物理世界的交互是最多的。我们在做locomotion的时候不会考虑踩歪了两厘米会怎么样,而且重力环境也是恒定的。”

王潜称,在物理世界的操作中,机器人会碰到大量的随机摩擦、可变形物体,即便是一瓶没盖紧的矿泉水,都可能因为这种微小细节引发漏水,导致失误发生。
“很多人会认为,我们以已有的语言模型、多模态模型作为backbone,再继续往前做就行了,但实际上这条路可能更加困难。今天哪怕是最出色的语言模型和多模态模型,在物理世界任务上表现仍然非常糟糕。”

他指出,如果要用其他模态来去描述运动模态,本质上是完全不可能的。比如炒菜的过程,应该用什么力度、向哪个方向颠锅,如何挥动勺子等等,要想用一个精确的方法去描述,显然不太现实。
“后来大家又想了很多做法,包括这两年的IROS上也有很多文章,例如用图像的方式来描述运动,但那样会存在大量遮挡。”
具身智能天然适用端到端
在方法论上,第一个出现的是端到端。
王潜称,以前大家觉得这个方式似乎很简单,但后来大家发现没这么简单。其中很核心的一点,还是物理接触的复杂性断绝了分层模型的可能性。
“如果Reconstruction(三维重建)做得不太完美,有1%的错误,那可能在自动驾驶里完全没有影响,对locomotion的影响也非常小。但是在Manipulation中,它会快速累积和放大。”

他表示,尽管有人提出要尽可能的利用、复用已有的VLM、语言模型等能力,但实际上从AI角度来看,还是应该创建一个以身体去体验、去收集数据,去增长智能的体系。而这些新的数据,也可以用于加深对语言、视觉的理解。
“由此看来,我们都不应再做分层的模型,因为具身智能是一个天然适合端到端方法的领域。”
通才模型
在两年前,人们还会觉得专用模型更好。他们认为在相同的预算下,如果只专注于一件事,那理所应当会达到最好的效果。
但随着语言模型大爆发,大家发现了通才模型的优势,去做多个任务,通常效果会比单一任务要好。这背后的原因在于,通才模型真正学会了不同任务之间的共同结构(common structure)。
“如果让它学习语言,它会掌握逻辑和常识;而如果在物理世界中构建具身模型,它就会学到物理规律。当模型掌握了这些东西后,我们才能看到今天在大模型上所经历的这些发展历程——从全量学习,到出现「上下文学习」(in context learning),也就是我们所说的「涌现」现象的最明显表现。”
王潜称,一旦模型学到了这些本质,之后在学习新事物时,所需的数据量都会大大减少。同时,它也能突破以往最困难的任务。至此,才能称它为通用人工智能,通过它才能实现通用机器人。
通用机器人模型,一定是VLA
有了通用模型和端到端之后,才有了叠加出了「基础模型」的概念。之所以需要基本模型,是因为物理世界的复杂性被极大程度地掩盖在多种模态之下。
Machine Learning、Deep Learning,以及大模型之所以能起作用,是因为它们能够通过压缩来提取世界的结构和核心规律,但是语言过程的尺度,和物理过程的尺度,其实是不一样的。
所以,王潜再次重申,必须要彻底离开以前在虚拟世界中熟悉的那套方法,真正走到物理世界中去。
“为什么VLA那么火?因为一个真正意义上的通用机器人模型,它一定是VLA模型,同时它也应该是一个真正意义上的通才模型,和一个真正意义上的端到端模型。”
王潜表示,他希望基础模型除了控制机器人,还能够干一些别的事。
“我们希望它的输出里面,也可以包含语言,即和人对话的一个VLM。同时也希望它拥有specialized intelligence——比如给它一张图片,或是给它一个视频,就能够重建出一个三维的环境或者物体。同时它还可以是视频生成模型、世界模型,等等。所有这些能力,都能够集中在同一个系统里面。”
他认为,尽管现在大家围绕技术路线经常吵来吵去,但其实都是在走向统一,走向通用,走向基础模型。只是在统一的道路上,大家各自进行着尝试,而最终的方法论,就是一个物理世界的基础模型。

在自变量的开源模型WALL-OSS中,除了常规的控制机器人之外,也会包含长序列思维链、同时能够使用语言和sub-task,将来甚至也会公开在世界模型上一些其他的specialized intelligence能力。
“至少在Zero-Shot的CoT的能力上,我们还是能够达到领先水平的。在单纯的Controlling上,效果也是不落后于目前的PI。”

虚拟世界数据即将耗尽
提到Scaling Law,很多人都认为说,大力出奇迹,但在王潜看来,其实也未必。
很多人认为,我们在进行范式转移——从算法为中心转移到数据为中心。但「数据为中心」不光代表着「更多的数据」,而是指将大部分的know-how、技巧和工作内容,从模型、算法转移到数据。

王潜称,在数据上能够做的事,远远超过在模型上能做的事。特别是如今,大家正走向越来越统一的模型,走向人越来越少的干预。所以人们大部分的注意力,从模型转向了数据。
经常有人说,似乎在机器人上没有看到Scaling law,那通常是因为数据做得太差了。如果数据效率比正常的数据效率差了一千倍,那Scaling law会彻底被淹没在噪声当中。
“单纯增加数据量、建数据工厂,单纯补规模,我觉得没有什么太大的意义。”
他表示,之所以Simulation、 Sim2Real,在Manipulation上没有能够获得很好的成功,是因为其数据质量,和在现实世界中收集到的数据有N个数量级的差距。

“所以在这种情况下,反而真实世界数据,会是一个更便宜、更高效的做法——在相同的训练结果下,我们会发现通过仿真做出来的数据,反而更加贵,而且更加慢。这是我们在从传统Robotics的方法论,转移到基础模型方法论上时,应该非常重视的一个点。”
据王潜介绍,自变量的模型也是遵循这个方法论,由自己收集的数据来源为主,去训练模型,获得了比较好的效果。
“关于预训练和后训练两阶段的方法论,可以做到非常好的效果。比起收集数据阶段,自变量如今的机器人演示速度已经快了2-3倍,通过强化学习的方式,我们大幅度的提升了成功率。”
除了预训练和后训练外,自变量还希望模型能做到推理式学习,这本身就符合机器人的天然属性。

之前,行业都在进行统一的集中式训练、集中式推理,所以机器人不能像一个人类孩子一样,去进行体验式学习。
而现在,他认为虚拟世界的数据已经快被耗尽了——如果今年不耗尽的话,明年或者后年的上半年也会耗尽。
尽管也有人提出合成数据,但王潜觉得人类智能的本质,还是扎根在物理世界中,所以物理世界的数据一定会是AGI最核心的要素。

具身智能将远超想象
许多人都觉得,机器人的角色就是在工厂里替代工人,或者在家庭中替代保姆,但王潜觉得,具身智能远不止如此,它应该是人类有史以来可能是最大的一次革命。
王潜表示,通过四次工业革命,人类的生产效率、能源获取有了指数级的提升。但是直到现在,仍然没有任何一个产品,是不需要通过人的手工劳动就能做出来的。
“如果真能出现一个真正意义上的通用机器人,能够彻底替代人的手工劳动,那我相信一切的万事万物,都会以指数级的速度向前发展。有了具身智能后,我们所能够达到的状态,应该远远超过大家的一般想象。”
他认为,非常聪明的AI能够发明更聪明的AI,然后后者再发明更高一层的AI……所以有朝一日,人类会被彻底甩到后面。在这一奇点到来前,人们还需要依靠更多算力、更多数据和更多能源,用这些物理世界的资源推动AI发展。
“我们在物理世界中所制造的这种指数级爆炸的生产力增长,才是能够推进人类实现通用人工智能,实现超级人工智能,进入下一个时代最主要的推动力。”
3D视觉硬件,官网:www.3dcver.com

3D视觉学习圈子
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦,微信:cv3d001
