
作者 |郑松毅
编辑 | 杨锦
如何解决人形机器人的通用性问题,如今似乎有了更清晰的路径。
近日,在2025世界机器人大会期间,星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇表示,“通用人形机器人一定是未来AI技术的一个趋势,接下来由于机器人将拥有更强大、更通用的移动和操作能力,必将带来整个生产力和社会服务力的革新。”
他指出,“通用大脑”和“通用本体”二者的融合可以构建一个通用人形机器人的范式,再通过场景和数据的闭环飞轮,构建了从最上端的统一模型,这个模型可以通用地赋能各类人形机器人的本体,包括灵巧手。
对于星动纪元来说,目前已发布了一款端到端的具身通用大脑模型“ERA-42”,集视觉感知、行为理解到规划,再到行为执行于一体。该模型已经能够实现控制更高的自由度,并且能在相对较少的训练数据下实现不错的功能。
在会后与搜狐科技等媒体的对话中,陈建宇直言,“在当前阶段,软件和硬件的耦合还是非常深的,很难有一款标准的本体,或者一个标准的大脑随便放在一个本体中。所以软硬化一体去做是尽快形成闭环的重点。”
谈及最近关于VLA的技术争议,在陈建宇看来,VLA是一个广泛的技术概念,只要机器人用到视觉感知、语言、行为动作,都可以认为是一个VLA模型。而下一个VLA范式,会融合世界模型和强化学习去改进机器人的精细化操作、泛化等能力。
对于商业化,陈建宇称,“在一些真实工业场景中,目前智能机器人已经达到人类70%的效率,明年能达到90%左右。假以时日,相信机器人会达到人类水平。但最终‘杀手级’应用场景还是在家庭。”
星动纪元成立于2023年8月,是清华大学唯一持股的具身智能企业,成立不到两年里,已完成3轮融资。今年7月初,公司宣布完成近5亿元A轮融资,由鼎晖VGC和海尔资本联合领投。
以下为对话精编:
媒体:看星动纪元也卷入了灵巧手赛道,目前进展如何?
陈建宇:去年刚做出灵巧手的样机,到今年已能够稳定量产,同时成本大幅下降,已积累非常多的客户群体。
产品本身有很大提升,从每一根手指的动作灵活度,到力量、速度等等,都是结合VLA进行打磨。
媒体:最近业内对VLA技术路线的争议很大,有人提出要借助世界模型寻求新范式,您怎么看?
陈建宇:我认为VLA是一个非常广泛的概念,只要机器人用到视觉感知、语言、行为动作,都可以认为是一个VLA模型。
世界模型这一板块,我们做出了全球首个融合世界模型和生成式模型工作,去年就陆续发布好几篇论文,在业内也形成比较多的讨论。现在已经有不少同行开始关注世界模型,未来很快就会形成一个新的共识。
强化学习也是一条可行路径。不同机器人的自由度、传感类型可能都不一样,在预训练中尽量去使用与具体本体无关的数据,比如说人的通用数据,再到真机上进行调整,在形态相对比较接近的本体上可以达到较好的迁移水平。
但其实无论是融合世界模型,还是强化学习,我认为都是涵盖在VLA技术路径内,以此进一步提升机器人的泛化、认知、运动等能力。
媒体:您提到“构建通用机器人的最短路径是直接向人学习”,人类的行为数据容易采集吗?
陈建宇:现在的VR和智能眼镜做到了大范围的发展和逐步的普及,通过这个是能够很高效的采集人类第一人称行为数据的,会比真机数据采集的成本低很多。
还有更多的是互联网数据,这个可能包含了不光是人的行为数据,还可以有第三人称和多个人的,甚至不是人的或者其它自然或者动物数据。也就是发生在地球上的一切,通过世界模型都能够从中学习。
媒体:星动纪元会考虑将技术开源吗?
陈建宇:目前已经开源了全球第一个做出运控强化学习的算法以及VLA生成式模型,后续公司还会做开源,因为具身智能还是需要整个生态共同努力,实现更多突破。
媒体:王兴兴近期呼吁大家应该更多关注模型框架,而不是过度关注数据,您怎么看?
陈建宇:数据的更上层是模型,如果只能关注一个的话,应该先关注模型。
媒体:很多人质疑机器人难做到应用落地,您认为机器人市场存在“泡沫”吗?
陈建宇:我认为没有出现所谓的“泡沫”。在一些真实工业场景中,目前智能机器人已经达到人类70%的效率,明年能达到90%左右。假以时日,相信机器人会达到和人类一样的水平。
媒体:您觉得机器人的“杀手级应用”会出现在什么场景?
陈建宇:还是在家庭侧,就像扫地机器人一样,未来陆续会有不同形态的机器人走进家庭里面。有些高净值家庭,可能会直接尝鲜试用通用人形机器人。未来五年,可能是家庭机器人的爆发时间点。但在此之前,还是要先在企业端落地应用。
媒体:当年在您不到30岁,还是研究员身份时,立志要做出世界级成果,现在您觉得做到了吗?
陈建宇:如果是以我的标准的话,还没有,相信还会继续不断做出更好的成果。
运营编辑|李阳
实习运营|史涵颖

