点击下方卡片,关注“具身智能之心”公众号
就在今天,Genesis团队正式推出 GENE-26.5。这是他们的首个机器人基础模型系统,也是 GENE 系列的首次公开发布。
博客链接:https://www.genesis.ai/blog/gene-26-5-advancing-robotic-manipulation-to-human-level

Genesis对GENE-26.5的定义是:旨在推动通用机器人操作能力向人类水平迈进。

无论是在烹饪、实验室自动化、还原魔方、制作冰沙、线束组装、多物体抓取还是弹奏钢琴等一系列长周期且接触丰富的任务中,Genesis均展示了广泛的灵巧技能——而且,这一切都是基于同一个模型、同一个硬件平台、同一套数据策略以及同一个控制栈实现的。
这些任务并非为了展示而设计的孤立演示。它们的设立是为了验证一个更宏大的问题:机器人能否以实际工作所需的精度、时机把握、协调性和适应性,与物理世界进行交互?
用Genesis话说,坚信通往实用通用机器人的道路,始于“操作”。
操作是机器人领域最具价值的问题
Genesis团队认为操作是机器人领域最具价值的问题,因为它能将“智能”转化为“有用的工作”。 大多数体力劳动的核心不在于在世界中移动,而在于改变世界。
这也是目前最难攻克的未解之谜。
导航将世界简化为“障碍物和自由空间”,其目标是避免接触;
移动和全身控制虽然利用接触来提供支撑,但地面通常是稳定的,模式是重复的,错误往往也是可挽回的;
操作则截然不同,接触本身就是任务。
机器人必须理解世界,预测并推演交互的结果。它必须在形状、重量、摩擦力和动力学特性都不确定的情况下,利用精确的力和时机控制来与未知物体进行交互。在长周期的任务中,误差会不断累积,往往几毫米的偏差就决定了成败。
Genesis将操作视为机器人技术的核心问题。如果机器人能够可靠且智能地控制与物理世界的交互,那么其他一切都将成为辅助。
操作任务是一个系统问题,而不仅仅是 AI 问题
早期的观察之一是:单纯依靠模型训练很难解决机器人操作问题。机器人技术本质上比数字 AI 更复杂:它需要传感器、执行器、控制系统、数据和模型本身之间的紧密协同。任何一个层级的短板都会传导至整个系统,并最终限制整体性能。因此,构建能力强且可靠的机器人,不仅需要优化单个组件,更需要在全栈层面都表现出色。
有趣的是,当系统从一开始就进行联合设计时,许多从“以模型为中心”的视角看来似乎很难的挑战,反而可以在其他层级得到更根本的解决。
数据就是一个最清晰的例子。高质量演示数据的稀缺仍然是机器人技术的主要瓶颈之一。人类交互数据是最丰富、最具扩展性的现实世界监督信号来源。它自然地捕捉到了机器人最终需要泛化的各种工作流程和环境多样性。
然而,现有的方法在规模和保真度之间存在着根本的权衡:
在野外收集的第一人称人类视频虽然扩展性好,但深受噪声、遮挡和可观测性有限的困扰。
遥操作和手持夹爪等设备接口虽然能提供更丰富的信号,但需要专门的 Operators(操作员)、受控的采集设置,且工作流程是围绕“数据采集”而非“任务本身”组织的。
因此,机器人数据集不仅在规模上受限,在其自然现实交互的多样性上也同样受限。
这一挑战的根源在于人类与机器人之间的具身鸿沟。人类的手能自然地产生丰富的交互数据,但这些动作无法直接迁移到机器人硬件上。
当下的现状
受限于更深层次的系统级约束,机器人领域的研究人员往往不得不接受折衷的方案。硬件限制约束了可行交互的范围,进而塑造了数据采集策略——尽管这个世界是由为人类双手设计的工具构建的。
控制中间件中的延迟和其他非理想特性(无论是通过延迟、控制器动力学、传输误差、齿隙还是执行器不精确性)引入了指令动作与实际系统状态之间的差异。这使得模型训练倾向于将遥操作信号作为监督信号,从而隐式地编码了特定于机器人的伪影。
评估瓶颈进一步拖慢了进度:一台机器人,一个人类评估员,一次一个试验;每次试验耗时数分钟,每个检查点需要耗费操作员数天的时间。
Genesis从全局视角重新审视整个系统
从全局视角重新审视整个系统,如果目标是实现人类水平的操作能力,那么每一个层级都必须为此提供支持:
跨越具身鸿沟 :在硬件层面最大限度地缩小差距,而不是试图通过建模和算法来弥补。这意味着不仅要使用高自由度机械手,更要设计一款在尺寸、运动学结构、自由度以及柔性接触动力学方面都与人类手部高度匹配的机械手。
在工作中捕捉高保真数据 :数据采集接口应当在保留人类自然行为的同时,提高可观测性和精度,从而能够在真实的工作流程中收集高质量的演示数据。
优化控制 :最大限度地减少延迟和跟踪误差,使模型能够从更广泛的监督信号中学习,而不仅仅局限于特定于机器人的遥操作信号。
构建原生机器人模型 :模型必须能够以复杂操作所需的频率和维度,在语言、视觉、本体感知、触觉感知和动作之间进行扩展和协同。
规模化评估 :评估体系必须具备基础模型规模迭代所需的多样性、效率、可复现性和吞吐量。毕竟,你只能改进你能够衡量的东西。
GENE 不仅仅是一个模型,而是一个由这些原则定义的整体系统。GENE-26.5 正是这一方向上的首个发布版本。
而Genesis团队则沿着五个核心维度来评估机器人操作能力:
空间精度 :交互发生的位置,以及接触点、物体或工具在位置上必须达到的放置准确度。
时序组合 :动作执行的时间和速度,以便随时间产生所需的动力学效果。
接触丰富度 :同时发生的接触的数量和多样性,从单点触摸到全手及多物体交互。
接触协调性 :多个接触点必须同步行动以表现为一个连贯行为的程度。
工具介导的交互 :通过使用中间物体(无论是按设计用途使用,还是以新颖但符合物理规律的方式使用),将能力扩展到机器人物理身体之外的能力。
其中,“接触丰富度”衡量的是使用了多少种以及多么多样的接触,而“接触协调性”衡量的是它们必须被紧密同步的程度。这一框架指导着如何设计和评估任务。不再为了孤立的演示而优化,而是选择那些在现实场景中能对这五个维度的不同组合施加压力的任务。
模型能做哪些事情?

Genesis在操作能力的扩展路径
超过 80% 的体力劳动属于“操作”范畴。然而,这些数据几乎从未被记录过。
以人为中心的数据是扩展现实世界操作智能最重要的可扩展来源之一。挑战不仅在于数据的数量,更在于如何捕捉那些保留了人类交互丰富性的数据,同时最大限度地提高其对机器人系统的可提取性和可用性。
GENE 围绕一条通往人类水平能力的扩展路径构建:
1)在多样化的人类演示数据上进行预训练;
2)利用少量机器人数据进行对齐;
3)通过现实世界和模拟环境的反馈进行持续改进。
Genesis Hand 1.0
灵巧操作模型需要一个能够表达丰富接触的物理接口。Genesis Hand 1.0 正是本着这一原则设计的。
这是一款高度灵巧、采用直驱技术的机械手,旨在实现与人类手部1:1 的真实尺寸匹配。它具有 20 个主动且可反驱的自由度,手掌和手指覆盖着柔软材料,以模仿人类皮肤的柔性接触物理特性。
这种仿生设计使我们能够将人类的手部动作直接映射到机械手上,有效地消除了对复杂重定向算法的需求,从而实现了从人类演示到机器人的近乎无损的信息传输。

硬件与模型的共生关系
GENE-26.5 目前运行在一个已经具备高度灵巧性的硬件平台上,但在进一步缩小与人类手部的“具身鸿沟”方面,仍有提升空间。Genesis Hand 1.0 代表了硬件路线图中的下一步,并将作为 GENE 系统持续迭代的重要平台。
硬件并非模型的下级产物;正是硬件,让合适的数据得以规模化。
Human-centric data engine
世界上最有价值的物理操作专长,往往存在于人类双手的隐性知识中:装配工人的直觉、实验室技术员的精准、后厨流水线工人的速度。
要大规模获取这些知识,必须解决一个根本性的约束:数据的采集不能打断工作本身的流程。 如果采集过程改变了行为模式,那么数据的规模和保真度都会受到限制。
Genesis的数据引擎结合了三种互补的数据源,共同覆盖了质量与数量:
手套数据 :捕捉高保真的手部运动和触觉信号;
第一人称视角视频 :捕捉自然行为和现实世界任务的多样性;
第三人称视角视频 :提供互联网规模的物理交互覆盖;

为了捕捉高保真的交互数据,数据采集手套采用了基于电磁(EMF)的手指追踪技术,并在整个手部配备了密集的触觉传感器。
这种接口可以在人类和机械手之间无缝共用,从而保持了从数据采集到实际部署的一致性。这款手套的设计初衷是极小侵入性,它能无缝融入现有的工作流程,让真实的工作在几乎无摩擦的情况下转化为数据采集过程。
机器人原生基础模型
我们的目标是学习一个统一的模型,使其能够最大限度地吸收来自异构输入和输出的海量数据:语言、视觉、本体感知、触觉和动作。
这里利用流匹配技术对轨迹的联合分布进行建模,旨在捕捉本质上多模态的未来可能性,同时保留耦合的时间动态特性。我们在设计时主要考虑了以下目标:
在异构、部分观测数据上进行扩展训练,模型可以直接在多种数据流上进行训练,无需显式对齐。这些数据包括:
1)第一人称视角流(视觉、手部状态、语言);
2)手套数据(视觉、语言、精细手部状态、触觉);
3)机器人数据(控制信号);
4)互联网语言和视频数据。
面向所有任务的统一模型 :
控制、生成式仿真、状态估计、逆动力学、目标推断、渲染和价值估计,都可以作为对该联合分布的条件查询来实现,缺失的模态则通过去噪过程进行推断。
灵活融合预训练模型的先验知识以引入规模效应 :
1)视觉-语言模型编码了意图和语义表示;
2)世界模型(在我们的定义中,指动作条件视频生成模型)捕捉了时间和物理动态;
3)该联合分布能够同时利用这两者的优势;
迈向即时部署
机器人进入一个新环境后,无需大量的数据采集和人工调试,就能立即开始执行有用的工作。要在实践中实现这一目标,需要我们要重新思考构建和评估模型的方式。
Genesis将即时部署视为高效且有效的特定任务微调的融合:当必须进行适应时,它应该只需要最少的数据、时间和人力。在极限情况下,当特定任务的投入趋近于零时,通过零样本泛化,部署将变得几乎是瞬时的。

对于预训练阶段,Genesis首先采用开环评估来研究扩展行为。如上图所示,增加模型规模和计算量能够持续降低验证损失,且更大的模型能达到更低的渐近误差。这与基础模型训练中确立已久的扩展定律相一致:更大的模型拥有更强的容量,并能持续从额外的计算资源和数据中受益。
闭环评估与仿真
然而,仅靠开环指标对于机器人来说是不够的,而闭环性能(即动作会影响未来的观测结果)才是衡量能力更有意义的指标。
因此,任务极度依赖仿真来进行闭环评估。在 Genesis,过去一年一直在不断突破仿真的真实感边界。与在现实世界中进行模型评估相比,基于仿真的模型开发具有更强的可控性、可扩展性和可复现性。
以往针对机器人基础模型进行基于仿真的评估工作时,通常需要联合训练真实世界数据和仿真数据。得益于最新版 Genesis World 前所未有的真实感水平,Genesis能够在不使用任何仿真数据的情况下,对我们的模型进行可扩展、可复现且系统性的评估。
Genesis构建了极其广泛的仿真评估体系,涵盖了各种具有通用技能的任务,并在光照、背景、物体属性、场景配置、任务指令等方面进行了多样化的变化。
在下图中,每一个数据点都代表 200 个评估设置和超过 150 小时的机器人执行时间;如果要在现实世界中进行评估,整张图表将需要耗费 2700 个人工-机器人小时。仿真使能够进行广泛的评估,以现实世界无法企及的规模,信息丰富地评估基础模型的能力。
关键发现非常明确:在这些广泛的闭环评估下,扩大预训练数据量会带来更强的零样本泛化能力。
Genesis表示后续将分享关于 Genesis World 的激动人心的更新,以及如何建立仿真与真实世界之间模型评估的强相关性。

特定任务微调
最后,针对特定任务的微调,Genesis将评估工作扎根于真实世界。
Genesis精心策划了一系列在预训练阶段完全未见过的新颖任务,并在超低数据量的制度下对它们进行评估,以反映即时部署的约束条件。
这些任务包括内部定义的一套任务组(每个任务仅包含约 20–30 分钟 的数据),以及更复杂的任务(如我们的演示视频中所示)。
这种设置使其能够严格衡量模型的适应效率。
除了在零样本泛化方面观察到的收益外,增加预训练数据规模还能显著提升微调性能:模型适应得更快,所需数据更少,并且能达到更高的最终性能。

低延迟、高保真控制
一个由 AI 控制的机器人系统本质上是分层级的,涵盖了从模型输出到中间控制信号处理、底层 PID 控制器,再到最终的电机级 FOC(磁场定向控制)驱动的多个层级。
在这些层级之间,系统会累积延迟、跟踪误差、控制器伪影以及驱动非理想特性,所有这些因素都拉大了“模型意图”与“机器人实际执行”之间的差距。
在基于遥操作的系统中,延迟和跟踪误差通常会被隐式地包含在训练信号中,因此模型学习时所面对的,正是它在部署时会遇到的特定机器人动力学特征。
然而,当利用非机器人数据(例如人类动作)进行训练时,这一假设就不再成立了。训练数据无法反映物理系统的动力学特征,从而造成了训练与执行之间的错配。
虽然在训练过程中可以引入人为延迟或系统噪声,但准确地对现实世界的动力学进行建模是非常困难的,因为它们是依赖于状态的,并且会随着机器人构型、速度、负载、接触条件、控制器增益、传动行为以及每一时刻的致动器动力学而变化。

为了从源头上减少这种错配,Genesis将双臂机器人上的原厂控制器替换为自研的控制中间件,该中间件专为低延迟、高跟踪保真度和确定性执行而重新设计。
该系统采用高性能的阻抗控制器,在优化设置下,端到端延迟低至 3 毫秒。
其技术架构细节如下:
网络架构 :通过单个 EtherCAT Y型从站网络驱动双臂;
实时系统 :使用带有隔离 CPU 核心的 PREEMPT_RT 内核来运行实时控制线程;
主站协议 :使用支持分布式时钟的 KickCAT 作为 EtherCAT 主站;
控制频率 :运行频率高达 500 Hz;
控制模式 :支持位置控制和阻抗控制,并兼容位置和速度目标输入。

