
作者 | 梁昌均
编辑 | 杨锦
“如果说要达到像ChatGPT或GPT-3.5水平的话,我觉得可能还有3到5年的时间。”谈及具身智能模型的突破,自变量机器人公司CEO王潜在世界机器人大会期间对搜狐科技表示。
这和宇树科技王兴兴的判断趋于一致——认为人形机器人接下来发展的关键在于AI,在于模型。
“现在机器人硬件水平非常不错,运动能力已经达到非常好的水平。但还是没什么用,现在能够提供的更多还是情绪价值,有用的价值普遍没有。”
王潜表示,这并不是硬件的问题,核心还是它的AI水平没有达到,所以模型是关键点。他提到,过去这两年行业形成的共识就是,需要完全统一的端到端模型,也就是所谓的基础模型或通用模型。
但与王兴兴对VLA(视觉-语言-行为模型)持怀疑态度不同,王潜认为,这条技术路线肯定是对的,并会走类似大语言模型一样的路,即Scaling Law也会在具身模型领域发挥作用。
王潜是全球最早提出神经网络注意力机制论文的研究者之一,其正是大语言模型所采取的Transformer架构的核心思想。
在美国南加州大学攻读博士期间,他还先后参与了谷歌RT-1/2模型、特斯拉Robot等机器人项目研究,其中谷歌RT-1模型则被视为具身智能VLA模型的早期重要探索。
这些研究经历或多或少影响了王潜创业后对技术路线的选择。
成立于2023年9月的自变量正是最早在国内提出并做出来VLA模型的具身智能公司,这也让其收获资本关注,7轮融资累计金额超10亿元,美团近期还独家投资A轮。
王潜强调,具身模型应该是独立于数字世界的基础模型,它是物理世界的基础模型,不能是语言模型的延伸。这需要足够大的数据量、尽可能大的模型,还需要在模型架构、训练方法等方面进一步探索。
对于人形机器人的应用场景,王潜认为,家庭、养老等和生活相关的场景,应该是所有应用当中最大的市场,甚至会比工业场景等都要更大。
“我觉得大概可能还要2到3年,或者再拉长3到4年,应该能够看到它真的在C端,在我们的日常生活当中开始出现。”
在价格方面,他认为消费者能接受的,包括产业链能够提供的价格,可能是在一万美金到两万美金之间,也就是10万人民币上下。“当然,今天普遍还是做不到。”
从自变量自身而言,王潜表示,最终会实现软硬一体,直接面向终端去卖完整的产品或者完整的解决方案,而不太可能按照Windows或安卓这种商业模式去做。
以下是对话精编:
媒体:很多观点都提到,硬件不再是人形机器人发展的限制,那未来发展取决于什么?
王潜:两三年前,具身智能火起来的时候,硬件就不是障碍。那时候基本上已经达到了一个想要的水平,只是还需要把它产品化、商业化。
但模型做了这么多年,还是没有让它能够做到除了抓取放置的任务之外,更加复杂的任务。从广义来讲,所有的机器人要更像人,或者让它能够有用,关键点就是AI。
媒体:机器人大脑过去和未来一两年已经实现和需要实现的突破是什么?
王潜:我觉得突破谈不上,但过去这两年大家可能形成共识,就是确实需要一个完全统一的端到端模型,就是所谓的基础模型或通用模型。我们从第一天开始,就是完全走这条新路线,那个时候还比较孤独。
这个不能说突破,但至少统一思想,是一个向正确方向前进的标志。我觉得未来两三年,可能会比较明显出现类似语言模型的Scaling Law所带来的突破,我对此非常期待。
媒体:按照公司技术路线去走,人形机器人达到ChatGPT的时刻还有多远?主要技术难点是什么?
王潜:如果说要达到像ChatGPT或GPT-3.5水平的话,我觉得可能还有3到5年的时间。这和语言模型或自动驾驶非常不一样,它能够应用的场景非常多,情况也非常复杂,所以会有相对比较smooth的过渡过程。
这里面最核心还是说Scaling Law能够发挥作用。我们相对确认的要素是数据量要足够大,模型尽可能大。当然,模型架构、训练方法等还要进一步向前推进。但这个路径还是相对比较清晰的,走的是类似当年大语言模型一样的路。
媒体:对VLA这种技术路线怎么看?有观点认为里面的L太多了,也有人不看好这种路线。
王潜:大家对VLA可能有不同的定义,我的理解是只要有视觉、有语言、有动作,就叫VLA模型。从这个概念上来讲,今天大部分模型都是VLA模型。
我觉得这个路线肯定是对的,我们也是最早在国内提出来和做出来这种VLA模型。L是不是太多,这是个技术问题,可以把视觉部分做多,也可以把语言部分做多。
但这并不是路线的分歧或错误,将来肯定所有模块要融合在一起。类似语言或者多模态模型的原生多模态,我们这儿可能就是原生的VLA,从第一天开始,语言视觉动作就应该在一起。
媒体:现在大部分人形机器人,能做的就是抓取放置简单的任务,如果去做更复杂的任务,瓶颈是在哪里?
王潜:最主要还是模型训练本身,类似于GPT-3出现之前,可能翻译是非常困难的任务。但是通用模型,所有任务都可以做得非常好,我们还是非常期待基础模型。
我们认为,具身模型应该是独立于数字世界的基础模型,它是物理世界的基础模型,而不能是语言模型的延伸。因为机器人或现实世界有大量问题和语言世界不同,比如各种各样的物理规律等。
媒体:您提到数据是模型训练比较重要的要素,如何解决数据稀缺的问题?
王潜:我们现在的策略是,所有涉及到复杂物理交互的,我们叫做contact rich,就是手上丰富的操作,不用任何仿真数据。我们探索的基本结论是,复杂的手上操作不能靠仿真数据来帮助它向前走。反过来,走路、导航等可以大量使用仿真数据。
当然,我们会在模型预训练的阶段,大量使用互联网的视频数据,但最主要的还是我们从现实生活中收集到的数据,包括机器人收集的数据和人收集的数据。
媒体:公司数据收集途径有哪些?很多地方也构建了大型数据训练场,会不会去合作?
王潜:我们有自己集中式的数据采集场地,也在分散的现实环境中去收集,比如实际部署之后回流数据。对于共建的数据中心,我们肯定是持非常开放的态度,有机会的话,我们还是很希望能够参与进去。
不过,机器人的数据收集,包括质量控制是非常困难的事情,最终出来的数据是否有用,是个有待验证的问题。与之相对的是,我们在自己的场地可以控制。
媒体:对机器人来说,什么样的数据算是好的?
王潜:这是整个研发里面最核心的问题,就是如何去判断数据的好坏,判断数据的质量。DeepSeek开源了模型,开源了infra,但是唯独没有开源数据。所以今天看到所有人都可以去抄DeepSeek,但是没有人能抄到像R1这样水平的模型。
媒体:现阶段影响人形机器人应用的因素主要有哪些?如何解决?
王潜:最主要还是机器人的大脑或大模型,现在机器人硬件水平非常不错,运动能力已经达到非常好的水平。但机器人还是没什么用,现在能够提供的更多还是情绪价值,有用的价值普遍没有。
这并不是硬件的问题,核心还是它的智能水平,AI水平没有达到,所以模型应该是关键点。当然,这些都还没有成熟,所以也要给整个行业、整个产业链一些发展的时间。
媒体:您怎么看家庭机器人的需求?决定机器人从展台走进家庭的关键是什么?
王潜:我觉得这应该是需求最大的一个单独市场,包括家庭、养老等和生活相关的场景。这应该是所有应用当中最大的市场,甚至会比工业场景等都要更大。
我觉得最关键的还是模型的能力,还需要足够好的大脑,足够好的大模型。这个大模型不是语言模型,是专门用来控制机器人的模型,让它能够足够聪明,能具备各种操作的能力。
我觉得大概可能还要2到3年,或者再拉长3到4年,应该是能够看到它真的在C端,在我们的日常生活当中开始出现。
媒体:未来面向C端消费者能接受的价格能下探到多少?宇树最新款机器人R1已降到3.9万了。
王潜:我个人觉得比较合理的消费者能接受的,包括产业链能够提供的价格,可能是在一万美金到两美金之间,也就是10万人民币上下。当然,今天普遍还是做不到。
(R1)是纯硬件,而且偏演示性,成本可以做得非常低。但如果要真的有用,目前阶段成本相对来说还比较高。
媒体:自变量训练机器人做的是长序列任务,通过这种路径来实现机器人的商业化,是不是会拉长这个周期?
王潜:这个肯定相对会较长。长序列需要非常好的泛化性,需要自己决策,对于环境中可能的干扰和变化,都会有所理解和适应,这种更适合生活和服务的场景。但这并不代表说我们不做工业,或者其它场景。
媒体:公司最开始做具身模型,后来开始做本体,会去做双足吗?未来到底是卖本体还是去卖模型?
王潜:我们现在开始有硬件,它本身可以是好的产品,先从最简单的做起,比如科研市场,然后再到复杂、更复杂的场景。
我们暂时还不会做双足,可能很长一段时间或者说至少在室内场景,主要以轮式为主。我们最后肯定是软硬一体,直接面向终端去卖完整的产品或者完整的解决方案,不太可能按照Windows或安卓这种商业模式去做。
运营编辑|李阳

