除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒

具身智能之心 2025-11-26 08:00

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图1
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图2

11月4日,Generalist AI发布了震撼世界的Gen-0具身基础模型,其数据规模是前所未有。这个由Google DeepMind高级研究科学家Pete Florence创立、Andrew Barry担任CTO、Andy Zeng担任首席科学家的具身领域独角兽,仅在短短数月内就2度凭借官网公开发布的成果惊艳世人。上一次是凭借4段任务难度高、精度要求不低的的双臂长程操作视频,而这次是Gen-0.

GEN-0 的“强大”基于Generalist AI自研机器人数据集进行预训练。这套27万小时的真实世界操作轨迹是当前具身领域规模最大的数据集,仅在衣物处理的轨迹数就达到了3亿条。而DRIOD是七万多条示范轨迹,Agibot World/Open X-Embodiment是超一百万条轨迹。而π0.5 是在移动操控机器人的环境中,收集了大约400小时的真机数据。从轨迹的角度来看,他们仅在衣物处理的轨迹数就达到了3亿条。而DRIOD是七万多条示范轨迹,Agibot World/Open X-Embodiment是超一百万条轨迹。在数量级上,Generalist AI实现了难以撼动的领先。

Generalist的高级研究科学家Pete Florence联合创立,曾在Google DeepMind带队研发了PaLM-E,RT-2等视觉或具身智能模型,Google学术的引用数超过19000次。Andrew Barry此前在波士顿动力任职,Andy Zeng则与Pete Florence一起在Google做了PaLM-E等工作。Generalist的核心团队,还有来自OpenAI、Waymo等顶尖公司的资深研究人员,他们都曾做过高质量的工作。

在 Generalist AI 的官网首页,"部署通用机器人"的愿景显露无疑。创始人Pete Florence表示:“我们的目标坚定不移,那就是创造出无所不能的机器人。所以,请想象这样一个世界:体力劳动的边际成本降至为零。”

Pete Florence 曾在 GTC 的座谈中提到:

我们的目标非常坚定,就是要造出能够做任何事情的机器人。你可以想象一个世界,在这个世界里,体力劳动的边际成本为零。生活中那些烦人、麻烦、得靠人亲自动手的事,不再需要'有人去修'——一切都可以像魔法一样变成你想要的样子。

与此同时,Generalist AI还发布了6段视频,展现GEN-0在新任务中实际运行的视频片段。在具身智能之心11月8日晚的“圆桌正当时”中,6位具身领域青年科学家、创业者和投资人一同对这6段视频进行了点评,以更专业更全面的视角向从业者揭示了其在数据基建、硬件设计、构型选择上的一些独到亮点。

所有内容已经同步到我们的具身智能之心知识星球内部,欢迎大家学习。

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图3
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图4

1

不可忽视的数据飞轮

北京谋先飞科技有限公司创始人兼CEO崔汉青提到,从存储容量上看,这27万小时的真实世界操作轨迹,压缩前的数据量级也是数十PB。而1个PB就已经是10万条高清10GB视频的容量了。且现在,Generalist AI从各地采回来速度也能实现每周上传量达1万小时,并且在持续提升速度。如果一个现在起步的具身玩家,1:1复刻Generalist AI的数采方式和规模,算上前期数采的“爬坡”时间,也需要至少超过半年,甚至一年的时间,这还不包括搭建强力的数据基建的过程。

在对于数据量的要求是指数级的上升中,对算力的投入和对数据质量把控难度也呈指数级上升。对于任意一个具身企业或想投身具身领域的团队而言,面临的难度犹如万重连绵高山。

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图5

2

复杂且多样而又贴近现实的的长程任务

Xspark AI 无界智航创始人兼 CEO穆世龙认为Generalist AI在操作任务中的表现,展现了其铰链物体操作上的高泛化能力,以及使用主流协作机械臂的硬件创新设计。提到了模型在处理复杂、多轴铰链任务时的优异表现,如折叠外卖盒子。

当前,学术界普遍认为,“Pick & Place”类任务因过于简单,难以有效评估模型在复杂场景下的泛化能力与真实操作水平。相比之下,Generalist AI发布的视频中所展示的任务更具挑战性——其涉及多种铰链结构物体的操作,例如折叠外卖盒。以该任务为例,其执行过程需处理多个相互关联的运动自由度:每个面或边均可视为一个独立的铰链关节,整体构成一个多轴联动系统。此外,视频左侧物品箱内还可见线束等柔性物体,进一步体现了任务对模型处理不同物性(刚性、柔性、可变形结构)的能力要求。

从这一视角来看,该模型在面对多样化、高自由度、多物理属性物体时所展现出的适应性与泛化能力,确实令人印象深刻。

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图6
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图7
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图8

主持人Gloria也认为,从技术评估的角度来看,该系列视频所展示的物体泛化能力表现突出,且所涉及对象均为现实生活中常见、非特制的真实物品。当前多数演示系统仍倾向于使用结构规整、便于控制的教学类道具,而本案例中所呈现的任务场景在物体多样性方面显著增强:涵盖各类纸盒、带胶带封装的包装物,不同形态的玩具、线缆、柔性材质物品等,几乎覆盖了日常环境中典型的多类别、多物理属性物体。整体任务环境高度贴近真实世界,具备较强的现实代表性与挑战性。

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图9

3

独具匠心的硬件设计

阿米奥公司联合创始人&技术负责人冯骞博士表示,其实这是一个非常偏工业的设计,也是阿米奥机器人本体的这要设计思路:双臂再加上夹爪。像这种协作臂,他们发现其实在很多工业场景中,它的稳定性、臂长都跟人非常接近。如果从替换人的角度去考虑,这是一种比较make sense的设计。同时,这个夹爪也做了很多精细化的细节设计,让它能够完成很多灵巧的操作。

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图10
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图11
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图12

当前实验场景主要设置于桌面环境,其设计初衷旨在贴近工业实际应用场景——在多数流水线作业中,操作人员通常在固定高度的工作台面进行装配与操控。此外,研究团队基于超过 27 万小时的用户交互(UI)数据,验证了模型性能随数据规模增长而提升的“规模法则”(scaling law),在一定程度上佐证了通过数采去增强模型的泛化性可行性。对于具身智能系统而言,确实存在类似大语言模型中的规模扩展规律,但其对数据量的需求更为严苛。这一特性对未来系统的长期研发成本与资源规划具有重要指导意义。

另一方面,冯博也提到,尽管当前已积累如此海量训练数据,模型仍难以实现真正意义上的零样本泛化能力(zero-shot ),表明在复杂物理交互任务中,仅靠数据驱动仍不足以完全突破任务迁移的瓶颈,后训练的部门就显得不可或缺了。

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图13

4

机械臂选型“暗藏玄机”?

Xspark AI 无界智航创始人兼 CEO穆世龙提到,视频中展现的机械臂,其实都是市面上非常主流的协作机械臂,并没有用到一些桌面级、轻量型机械臂,比如方舟无限或者说松灵产品。

使用低成本轻量型机械臂可能会遇到一些问题,比如正运动学、解算。末端夹爪的适配性也需要特别考量。视频中展现的夹爪如果重量比较重,那其实对部署在其他一些轻量级机械臂上就不太友好。夹爪的量程设计尖锐度,这些设计使得模型能够完成精细操作任务

同时他表示,期待下一次能看到大范围柔性物体操作展示。以及对硬件设计细节的赞赏,如夹爪的量程设计和末端尖锐度,这些设计使得模型能够完成精细操作任务。

鹿明机器人联席CTO丁琰博士则从另一角度揭示了机械臂的“奥秘”。他指出,从视频中操作任务上看,Generalist AI用的机械臂是带力控的。且其中一段视频中有一个新的轮式双臂机器人,肉眼看上去他的力控也比较丝滑。

从更宏观的角度上看这次的发布,丁琰博士像Generalist AI这样的一些独角兽公司,他们在模型能力方面具有突出的领先优势,在硬件设计上竟也能有非常大的突破,这非常令人敬佩。一般大家都会被它的模型和数据量的多少牢牢吸引研究,但如果仔细分析它的夹爪设计,也是非常考究的。比如说为什么会有黑色和黄色相间的结构——黄色更多是柔性材料,黑色是刚性材料。

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图14
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图15
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图16

并且它用的夹爪不再是常见的二指平行夹爪,而是有一个更大量程的考虑。它将其设计成有点像剪刀一样,拆开后量程会更大一些。在这个任务上没有体现,但如果回到它折叠盒子的任务上,会发现它会用两个指尖同时接触盒子的前后两个面。像传统的二指平行夹爪,其实非常难完成这样的操作。

还有一个点是,仔细看的话,夹爪设计得非常尖。这个“尖”的设计代表它可以完成一些非常精细的操作,比如第二行第二个视频中,它可以分拣非常精细的条状物体。在首次发布的视频中,甚至还有螺丝这类物体。

除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图17
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图18
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒图19

这些都启示国内具身行业从业者:应重新审视美国或海外的公司,除了在算法上的创新,他们在硬件上的一些创新结构设计,其实是值得大多数中国公司来学习的。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
数十亿AI员工上岗倒计时!云计算一哥“没有魔法,只有真能解决问题的Agent”
不做外卖不谈 AI,拼多多暗渡陈仓
面积缩小45%、速率翻倍!时创意双新品引爆AI终端存储升级浪潮
首款豆包AI手机售罄:二手价最高超万元,租赁单日报价600 元
英特尔聚合生态力量,共塑AI NAS新格局:酷睿Ultra驱动智慧本地算力与存储创新
SpaceX估值8000亿美元超OpenAI,IPO就在明年
光源资本郑烜乐:做硅碳融合时代的连接者,拥抱AI全要素的未来|WISE 2025 商业之王
亚马逊云科技最强 AI Agent 阵容发布,设计火箭也不在话下
估值7.5亿美元初创意欲「撬动」8000亿半导体市场?前谷歌AlphaChip主导者创业研发「AI芯片设计自动化」
一句话生成应用!灵光AI已被网友玩疯,两周狂产330万
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号