摘要
Abstract
GEN-0是新一代具身基础模型,其核心突破在于首次在机器人领域建立了可预测的扩展定律,证明模型能力可随计算量和物理交互数据的增加而持续提升。该模型基于超过27万小时的真实世界操作数据训练,并以每周1万小时的速度增长,解决了机器人长期面临的数据瓶颈问题。其关键技术“谐波推理”通过异步处理连续时间流中的感知与动作标记,实现了“边思考边行动”的能力,无需依赖双系统架构或推理时间指导,显著提升了在物理环境中操作的流畅性。
项目地址:
https://generalistai.com/blog/nov-04-2025-GEN-0-of-pretraining
多年来,机器人中的基础模型主要使用视觉语言预训练作为扩展机器人技术的垫脚石,使我们能够从现有的大型多模态模型中转移,语义泛化的好处。但所缺少的是如何在机器人技术本身领域有效地扩展大型多模态模型训练——建立扩展定律,通过更多的计算和数据来证实机器人智能的一致(和可预测)改进,这支撑了其他领域的进展,例如法学硕士。这需要一个架构、训练程序和数据引擎来推动新的感觉运动能力, 提供行为泛化,并随着与真实物理世界交互产生的广阔且不断扩展的体验而成长。
为此,我们推出了 GEN-0,这是一类新的具身基础模型,专为直接基于高保真原始物理交互的多模态训练而构建。它的架构建立在视觉和语言模型的优势之上,同时也超越了它们——原生设计用于捕捉人类水平的反应和物理常识。其中一项核心功能是谐波推理,其中模型被训练为同时无缝思考和行动。我们在之前的视频中分享了早期前身的功能。
今天我们分享的是,GEN-0 不仅具有突破性的基本功能,而且这些功能正在扩展:
超越智能阈值 – 在机器人技术前所未有的高数据状态下,我们观察到 7B 处的相变,其中较小的模型表现出骨化,而较大的模型继续改进。此后,我们将 GEN-0 扩展到 10B+ 模型大小,并观察到快速适应新任务,而后训练越来越少。
扩展定律 – GEN-0 模型表现出强大的扩展定律,其中更多的预训练数据和计算可以一致(且可预测地)提高模型在许多任务中的下游训练后性能。
谐波推理 - 虽然对于语言聊天机器人来说,在做出响应之前花更多时间思考是很简单的, 但对于在现实世界中运行的物理系统来说,情况就不那么简单了——物理学不会停止。为了解决这个问题,谐波推理涉及一种全新的训练模型的方法,并在异步、连续时间的传感流和作用标记之间创建“谐波”相互作用。这使我们能够扩展到非常大的模型大小,而无需依赖 System1-System2 架构或推理时间指导。
交叉实施方式 – GEN-0 架构在设计上适用于不同的机器人。我们已经在 6DoF、7DoF 和 16+DoF 半人形机器人上测试了我们的模型。
不再受数据限制 – GEN-0 在我们的内部机器人数据集上进行了预训练,其中包括超过 270,000 小时的真实世界多样化作数据,每周以 10,000 小时的速度增长并加速增长。
预训练科学 – 预训练数据的不同组合(来自不同来源,例如数据代工厂)产生具有不同特征的 GEN-0 模型。我们分享了我们在这种高数据状态下的实证观察中的一些早期笔记,以及它如何追溯到特定的数据收集作。
我们相信,GEN-0 标志着一个新时代的开始:具身基础模型,其功能可预测地随着物理交互数据(不仅仅是来自文本、图像或模拟)而扩展,而是现实世界。
以下是 GEN-0 在新任务中的实际应用视频:
构建相机套件(俯视图)。这是一项漫长而灵巧的任务,包括将清洁布放入盒子中,折叠在纸板托盘中,拿起相机并将其从塑料袋中取出,将其放入盒子中,关闭盒子(并插入小翻盖),然后丢弃塑料袋。该模型不维护任何明确的子任务概念,并在单个谐波推理流中执行所有这些作。
超越智力阈值
我们的缩放实验表明,GEN-0 模型必须足够大,以吸收大量的物理交互数据。我们观察到,较小的模型在数据过载 4 下表现出类似于骨化的现象,而较大的模型则继续改进——这表明我们模型的智能能力出现了令人惊讶的“相变”:
1B 模型在预训练期间难以吸收复杂多样的感觉运动数据——随着时间的推移,模型权重变得无法吸收新信息。
6B 模型开始从预训练中受益,并表现出强大的多任务能力。
7B+ 模型能够将大规模机器人预训练数据内部化,只需几千步的后训练即可传输到下游任务。

图 1.缩放 GEN-0 模型大小(不同颜色)可提高完全保留(即零样本)长视界下游任务的下一步作验证预测误差(y 轴,越低越好)的性能。1B 参数模型表现出清晰和早期的骨化,而 6B 和 7B 模型分别在吸收预训练方面表现更好。x 轴是预训练计算规范化的,因此 GEN-0 7B 为 1.0。
据我们所知,这是第一次在机器人技术中观察到模型骨化 8 。由于 (a) 迄今为止机器人技术中缺乏高数据状态,以及 (b) 该状态下足够大的模型大小,这可能没有过去的研究。之前在高数据状态 9 下的 LLM 文献 4, 中观察到骨化,但模型要小得多,以 O(10M) 参数而不是 O(1B) 的数量级。这种相变发生在机器人技术中,但模型尺寸要大得多,这一观察结果与莫拉维克悖论相呼应: 10 人类发现毫不费力的东西——感知和灵活性——需要比抽象推理更多的计算复杂性。我们的实验表明,物理世界中的智能(即物理常识)在计算方面可能具有更高的激活阈值,而我们才刚刚开始探索超越的东西。
机器人的缩放定律
缩放定律通常在预训练期间测量,如图 1 所示,它显示了预训练期间下游零样本任务上模型大小和计算的关系。另一种类型的缩放定律与预训练的好处有关,这些好处会持续到微调中。 4 在足够的模型规模下,我们还观察到预训练数据规模和下游训练后性能之间存在很强的幂律关系(图 3)。这适用于我们测量的所有任务,包括合作伙伴和客户启发的应用程序及其跨广泛工业领域的工作流程,包括服装、制造、物流、汽车和电子。


更具体地说,我们采用各种模型检查点(图 2),这些检查点已使用我们的训练程序在预训练数据集的不同子集上进行了预训练,然后在多任务语言条件数据上对这些检查点进行后训练,即同时在 16 个不同的任务集上进行监督微调。我们发现更多的预训练可以提高所有任务的下游模型性能(图 2)。
图 2.随着越来越多的预训练数据(不同颜色),训练后期间的多任务模型性能在验证损失(顶部)以及所有 16 个任务集中的下一个动作预测误差(底部 4x4 网格)方面都有所提高。这些任务包括评估灵活性(例如拼砌乐高)、特定于行业的工作流程(例如快餐包装)和泛化(例如“_ anything”任务)。

图 3.我们的缩放定律很好地描述了给定任务集的后训练模型上的渐近下一个动作预测误差,作为预训练数据集大小(以动作轨迹数量为单位)的函数。结合模型大小缩放定律,我们可以使用这些结果来预测任何下游后训练任务的预训练计算和数据的最佳分配。
机器人技术不再受数据限制
我们的基础模型经过前所未有的 270,000 小时真实世界纵轨迹的训练,这些轨迹收集了全球 1,000 多个家庭、仓库和工作场所的不同活动。如今,我们的机器人数据运营每周提供超过 10,000 个新小时,并且正在加速。这一切都由全球硬件网络和数千个数据收集设备和机器人提供支持。

图 4.GEN-0 的训练真实世界作数据比迄今为止存在的一些最大的机器人数据集(截至 2025 年 11 月)多几个数量级。
绘制纵宇宙图
为了扩展 GEN-0 功能,我们正在构建有史以来最大、最多样化的真实世界作数据集,包括人类能想到的每项作任务——从剥土豆皮到穿螺栓——涵盖家庭、面包店、自助洗衣店、仓库、工厂等。以下是我们为探索这个宇宙而构建的内部搜索工具示例:
图 5.这是搜索 <1% 的预训练数据集的示例,其中包括来自不同环境中数百万个不同活动的作数据。可视化通过数据集中相应语言标签嵌入的 t-SNE 映射引导用户。给定文本描述,可视化工具会定位最近的邻域,并在该区域中随机采样相关视频的集合并显示它们。
互联网规模机器人数据的基础设施
构建运营和 ML 基础设施来支持这一点并非易事。对于这种规模的机器人模型和数据,我们构建了定制硬件、数据加载器和网络基础设施(包括铺设新的专用互联网线路),以支持来自世界各地各种数据收集站点的上行链路带宽。我们协商了多云合同,构建了自定义上传机器,扩展到 O(10K) 内核以进行持续的多模态数据处理,压缩了数十 PB 的数据,使用前沿视频基础模型背后的数据加载技术,能够吸收每天 6.85 年的真实世界作经验每天的培训。
预训练科学
从大规模消融中,我们发现数据质量和多样性比绝对数量更重要,精心构建的数据混合可以导致不同的预训练模型特征。例如,表 1 显示了在 8 个不同的预训练数据集上训练的不同模型的性能指标,以及它们在 10 个长期任务集上进行微调时的下游影响,这些任务集分为 3 组,评估不同的维度:灵活性、实际应用和泛化。
实验表明,预测误差低和反向 KL 低的模型往往在 postraining 的监督微调(SFT)下表现更好,而预测误差高、反向 KL 低的模型往往分布多模态,这有助于训练后强化学习。大规模采用多种数据收集策略使我们能够持续对哪些数据改进预训练效果最大。