具身智能绕不开的“四数”为什么这么难:数采、数据飞轮、数据工厂、仿真合成数据

具身智能之心 2025-09-23 08:00

点击下方卡片,关注“具身智能之心”公众号




>>点击进入→具身智能之心技术交流群

内容首发于国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

资讯配图

近期举办的外滩大会上,多个具身领域知名学者与企业负责人针对具身算法发展、具身数据的采集与使用、仿真等领域展开了探讨。具身智能之心有幸到现场观摩,我们一起看看都有哪些精彩的观点。

1

清华大学 计算机科学与技术系 教授

博士生导师

清华大学 人工智能研究院 

智能机器人中心主任 

孙富春教授

资讯配图
资讯配图

具身哲学发展史

资讯配图
资讯配图

具身智能(Embodied Intelligence)的思想渊源可追溯至哲学与认知科学的发展脉络。早在我国古代思想体系中,《论语》所体现的“知行合一”理念已蕴含了认识活动离不开身体与物理世界交互的基本观点。相较之下,17世纪西方哲学受笛卡尔身心二元论影响,长期将心灵与身体视为彼此独立、互不作用的两个实体。

这一传统观念在20世纪逐步受到挑战。1943年,沃伦·麦卡洛克(Warren McCulloch)在其著作《思维的具身》(The Embodiment of Mind)中提出,人类心智的形成并非脱离身体的抽象过程,而是根植于个体与外部环境之间的持续物理交互。这一观点为后续具身认知理论的发展提供了重要启发。

1963年,心理学家理查德·赫尔德(Richard Held)通过一系列实验进一步揭示了感知与行为之间的内在联系。他在研究中设计了“被动运动猫”实验:将十只猫分为五组,每组两只,其中一只猫在自由行走过程中可主动获取视觉信息,另一只则被蒙住双眼,仅通过机械装置跟随前者移动。实验结果表明,只有具备主动感知能力的猫能够在遇到台阶边缘时识别危险并做出规避反应,而被动移动的猫即使经历了相同的物理位移,也无法形成相应的空间判断能力。该研究充分说明,感知并非简单的信息输入过程,而是依赖于主体在行动中的主动探索与反馈机制,这对行为模式的建立具有决定性意义。

此外,心理学研究表明,在行为习得过程中,感知系统特别是神经系统的可塑性起着关键作用。反复执行某一动作不仅能够优化神经控制通路和行为图式,同时也会引发身体结构与功能的适应性变化。以中国跳水运动员全红婵为例,在长期训练过程中,其动作协调性、肌肉控制精度以及本体感觉系统均得到系统性强化。这种生理层面的发育反过来又提升了技术表现的稳定性与精确性,最终实现入水无水花的高难度效果。由此可见,身体不仅是感知的载体,更是在与环境持续交互的过程中不断演化和重构的动态系统。

基于此类观察,赫尔德对“具身”概念提出了明确界定:应赋予机器一个具有特定形态的物理身体,并使其通过与真实环境的交互来实现学习与发展。这一理念区别于传统人工智能中的符号主义与连接主义范式——后者通常将智能视为一种脱离物理载体的信息处理机制,本质上是一种“离身的计算”(disembodied computation),局限于静态的数据建模与模式识别。

相比之下,具身智能强调一个完整的闭环系统:它不仅包含感知与决策,还涵盖动作执行、环境反馈以及身体在时间维度上的适应与成长。因此,真正的智能不应仅仅体现在算法层面的优化,而必须置于“感知—行动—发展”相统一的动态框架之中。

综上,具身智能不仅代表了一种技术路径的转变,更体现了对智能本质的深层理解:智能的生成离不开身体的存在及其与世界的实在互动。唯有在此基础上,才可能构建出具备自主性、适应性与持续学习能力的人工智能系统。

资讯配图
资讯配图

具身智能,一个沉浸式感知过程的构建

资讯配图
资讯配图
资讯配图

我们今天再看具身智能,实际上是一个沉浸式感知过程的构建,要构建沉浸式的感知,要有物理属性、要有触觉、要有听觉、要有物体相互过程产生的反应行为。

如果说有人讲给具身智能一个更加简短的描述,在座每个人都是一个理想的具身智能体,我们从来到这个世界通过我们的身体与物理世界的交互,一方面我们身体长高了、长结实了,而且身体也跟你从事的职业很有关系,如果你是舞蹈演员身体就非常苗条;第二你大脑的知识实现了增长,所以我们经常讲外感知和立体作用是具身智能体的重要表现形式。

我们谈到了如何构建一个沉浸式的环境。其实我们做的最早就是数字孪生,用过视觉点云,在这个环节里面通过AI做语义的理解,通过强化学习训练基于状态的、基于操作的目标强化学习方法来训练各种策略,比如说像VLA就是在这个基础上提出的。

其实我们觉得这种视觉点云的环境远远没有达到沉浸式感知,于是我们想到计算机世界里面如何把物理世界的一些物体,把它的物理属性建出来,比如它的重量、转动惯量、泊松比,包括跟物体相互作用产生的各种变形、触觉和听觉,这是第二代数字孪生环境摇鹅做的事情,所以这里我们提出如何将物理学的各种感知过程融入环境里面。

这是我们去年发表的文章,这篇文章做到了每个实体的物理属性都要做进去,包括它的动力学模型、包括相互作用产生的柔性变形也要考虑进去,具身智能目前在考虑多机械手协作包括人手协作包括对变形物体的操作,是这里面非常重要的过程,包括操作过程里面我们讲的机器人它的腕部腕力、关节力、接触力触觉和听觉如何产生。

第二部分就是如何用AI环境把它嵌进去,这里用到像神经辐射场等,包括最近刚刚提出的VGGT,这是基于几何变形的构建方法,要用到这样一个环境当中去。最近也有一个重要的工作,就是在这样的环境里面得到的策略,当迁移到真正的物理世界的时候,这个策略误差的上限我们能推出来,而且这个上限告诉我们,把触觉、听觉、操作物体的物理属性加进去以后,这个上限在变小,也就是说在这样的环境训练的策略它的鲁棒性和泛化能力远远超过视觉点云的环境。

当前,人工智能驱动下的机器人训练已成为智能体发展的重要方向。其中,构建规模化、系统化的机器人训练场被视为实现具身智能突破的关键基础设施。我们有幸邀请到江磊首席科学家——来自上海人形机器人公司的技术带头人。该公司已在张江建成大型机器人训练基地,并相继在苏州、郑州布局同类设施,形成了跨区域的训练网络。这一模式正逐步成为行业共识。

目前,国内已涌现出多个高水平机器人训练平台,如上海浦东智源研究院训练场、张江人工智能岛实验平台、北京石景山人形机器人国家创新中心、长三角一体化示范区智能机器人协同创新中心,以及帕西尼(PaxiNi)在天津建设的超级数据工厂等。与此同时,全国各地正积极推进各类机器人训练场的建设,呈现出快速发展的态势。

然而,在快速发展的同时也暴露出若干问题:基础设施布局呈现碎片化趋势,缺乏顶层设计与统筹规划;存在重复建设现象,资源利用效率不高;不同平台间标准不一,数据互通困难。因此,亟需明确训练场的核心价值定位,以指导未来可持续发展。

理想的机器人训练场应具备以下关键功能:

  1. 降本增效:通过集中化部署降低单机训练成本,提升训练效率;

  2. 安全模拟:在虚拟环境中进行高风险任务演练,避免物理损伤;

  3. 数据标准化:统一数据格式、标注规范与接口协议,促进跨平台共享;

  4. 并行加速:支持多智能体同步训练,显著缩短学习周期;

  5. 软硬解耦:实现算法模型与硬件平台的分离,增强通用性与可移植性;

  6. 虚实一体:打通仿真环境与真实世界的边界,支持从模拟到现实的平滑迁移。

训练场建设中的两大关键技术挑战在于沉浸感与物理真实性。所谓沉浸感,是指训练环境能够全面还原真实世界中的多模态感知体验;而物理属性的真实性则要求仿真系统准确建模重力、摩擦力、弹性、惯性等力学特性。例如,在真实场景中,人类可通过手持动作判断物体重量,类似地,机器人也应在虚拟环境中具备“掂量”物体的能力,从而掌握其质量分布与接触动力学特征。这对当前的物理引擎和触觉模拟技术提出了极高要求。

在数据获取方面,具身智能的发展高度依赖高质量、多样化的行为数据。当前主要围绕机器人平台采集三类核心信息:

  1. 视觉数据,包括RGB图像、深度图、点云等,用于表征环境几何结构与物体外观;

  2. 行为交互数据,记录机器人执行抓取、推动、倾倒等操作时的状态序列;

  3. 语义理解数据,支撑AI对任务意图的理解与知识图谱的构建。

近年来,国内外已发布多种代表性具身数据集,涵盖单模态与多模态类型,如RoboTurk、X-Ego、Open-X Dataset(开源开放的具身数据集),以及由上海智元、Google DeepMind、北京人形、上海交通大学、加州大学伯克利分校等机构构建的专业数据资源。

值得注意的是,视觉信息不仅可用于重建空间结构,还可通过学习模型间接推断力、材质、滑动趋势等非视觉属性,实现跨模态映射。此外,触觉感知作为另一重要模态,包含分布式压力、剪切力(滑觉)、重量感知、温度变化等多种信号,对于精细操作至关重要。同时,语音与文本信息在任务指令理解、错误修正等方面发挥重要作用。李飞飞教授提出的空间智能(Spatial Intelligence)框架中特别强调,语言反馈可用于校正视觉感知偏差,提升行为决策准确性。此外,力觉信息,如腕部六维力矩传感器与关节扭矩反馈,也是闭环控制不可或缺的数据来源。

资讯配图
资讯配图
资讯配图

目前,遥操作(Teleoperation)仍是主流的数据采集方式之一,主要包括以下四类方法:

  1. 主从式遥操作:在远程控制端配置与现场机器人同构的机械臂,操作者通过操控主端设备引导从端机器人完成任务,同步采集运动轨迹、力控信号及视觉反馈;

  2. 运动捕捉辅助采集:结合光学动捕系统或惯性传感器,精确记录人体手臂与灵巧手的运动学数据,用于模仿学习;

  3. 可穿戴设备采集:利用手套式传感器、外骨骼装置等采集人手操作过程中的姿态、力度与触觉响应;

  4. In-the-Wild 野外采集:在真实物理环境中进行非结构化数据收集,不依赖特定机器人本体,强调环境多样性与任务自然性。典型案例如UMI项目中的快速夹爪适配采集、基于视觉增强的触觉估计系统、以及面向日常物品的操作数据采集。

此外,互联网公开数据正日益成为具身学习的重要补充来源。例如,Figure Robotics在其Figure 03系统中采用的P0具身大模型,其训练数据中超过90%来源于网络视频与图文资料。这种“从互联网学习”(Learning from the Web)的范式极大拓展了数据广度,但也面临数据噪声、标注缺失与物理一致性不足等问题。

值得一提的是,RoboBrain概念最早由欧盟于2012年提出,旨在构建一个集“机器脑”(认知计算)与“行为脑”(运动控制)于一体的融合架构。该理念强调通过强化学习机制(Dynamism-based Reinforcement Learning)连接高层决策模块与底层执行系统,形成“大小脑协同”的智能架构。近期发展如Helix系统,则进一步将视觉-语言-动作模型(VLA)与低层运动控制器深度融合,提升任务泛化能力。

为说明具体数据采集流程,现以某典型实验为例:在采集现场,机械臂末端安装两指灵巧手,其夹爪两侧集成高分辨率触觉传感器阵列,配备专用信号处理单元,实时采集接触力分布、表面纹理与形变信息。机器人依次抓取多种目标物体,如海绵、生鸡蛋、熟鸡蛋等,通过触觉反馈建立物体物理属性模型,用于后续抓取策略优化。

在国际范围内,已形成若干标准化抓取测试数据集,最具代表性的是由耶鲁大学与卡内基梅隆大学联合发布的YCB(Yale-CMU-Berkeley)物体集,最初包含77类日常用品,涵盖工具、容器、食品等类别,广泛应用于抓取、操作与识别研究。

综上,机器人训练场的建设不仅是基础设施的投入,更是推动具身智能从“感知”走向“行动”、从“孤立学习”迈向“系统演化”的关键支撑。未来需加强顶层设计,推动平台互联互通,完善数据标准体系,最终构建一个开放、高效、可信的具身智能训练生态。

资讯配图
资讯配图

数采,得先“抓得住”,再“抓得稳”

资讯配图
资讯配图

为实现机器人在复杂场景下的可靠操作,我们团队围绕物体抓取任务开展系统性数据采集与建模工作。实验选取YCB标准物体集中的72类常见物品作为操作目标,构建具有代表性的抓取数据集,并设计了一套融合视觉与触觉的多模态训练框架。

在数据采集阶段,根据抓取过程的稳定性,将操作行为划分为三类典型模式,并进行结构化标注:

  1. 稳定抓取(标签1):机器人成功完成抓取动作,物体在整个操作过程中保持固定姿态,无滑移或脱落现象;

  2. 中途失稳抓取(标签2):初始阶段抓取状态良好,但在后续运动过程中发生打滑、偏移或掉落;

  3. 初始不稳定抓取(标签0):在夹持初期即出现接触不良、姿态偏差或未完全闭合等失败情形。

通过对上述三类行为的明确分类,构建了一个可用于监督学习的结构化数据环境,旨在提升模型对抓取稳定性的预测与控制能力。

在具体实验设置中,选取10种代表性物体,结合3种不同的抓取方向,每种组合重复执行30次抓取尝试,共完成约2700次抓取实验,形成基础数据样本集。在感知系统方面,采用双视角视觉采集方案:一路为顶部俯视相机,用于获取夹爪与物体的相对位置关系;另一路为侧向相机,用于观测抓取过程中的姿态变化与形变情况,实现对三维空间交互的全面记录。

同时,为弥补纯视觉信息在判断接触状态方面的局限性,系统集成分布式触觉传感器网络,部署于灵巧手夹爪表面,实时采集压力分布、剪切力及接触面积等动态触觉信号。由此形成的多模态数据流包含两路视觉输入与一路高维触觉反馈,构成融合感知的基础。

在模型训练阶段,采用监督学习范式,以标注的稳定性标签(0、1、2)作为目标输出,联合优化视觉与触觉特征的融合表示。通过该方法训练所得的策略模型能够有效识别潜在的不稳定因素,并在执行过程中动态调整抓握力度与姿态,从而显著提升抓取成功率。

实验结果表明,仅依赖视觉信息难以准确判断接触质量与力学状态,尤其在处理易滑、易碎或非刚性物体时存在明显局限。而引入触觉反馈后,系统可实时感知局部接触特性,进而实现对“稳定抓取”的精准建模与主动保障。

综上所述,本研究验证了多模态感知特别是触觉信息在实现稳定抓取中的关键作用,并建立了一套可扩展的数据采集流程与学习框架,为未来具身智能系统在真实环境中实现精细化操作提供了技术路径与数据支撑。

资讯配图
资讯配图

把“身体”还给AI,

让机器真正“活”在物理世界中

资讯配图
资讯配图

具身智能与大模型的融合:

迈向泛化能力的关键路径

当前,具身智能(Embodied Intelligence)与大模型(Large Models)的深度融合已成为推动机器人技术实现产业落地的核心方向。尽管“具身大模型”这一术语广为流传,但需明确的是,真正构建大模型的能力并非来自机器人本体,而是通过将边缘侧轻量化小模型与云端大模型协同结合,形成“云—边—端”一体化的智能架构。

在此框架下,智能体作为物理世界中的感知与执行单元,承担多模态数据的现场采集任务。所采集的信息可分为两类:

  • 同构模态:如视觉系统中的RGB图像、深度图、颜色与纹理等,均属于同一感知通道内的多样化表达;

  • 异构模态:涵盖视觉、听觉、触觉乃至味觉等多种异质感知信号,构成复杂交互环境下的综合输入。

大模型的核心价值在于其强大的场景泛化与策略泛化能力。以装配任务为例,在手机产线中面对软排线、同轴线、异形小零件等多样组件时,若仅依赖特定规则或单一模型,难以适应频繁变更的操作对象。而大模型可通过学习已有经验,推演至未见过的相似场景——例如,机器人在掌握上海精细门把手开启方式后,能否适应北京粗犷型门锁结构?进一步扩展,是否能泛化至南京、四川等地不同风格的门体设计?这正是大模型通过生成式建模实现跨地域、跨形态迁移应用的体现。

此外,策略泛化能力使得同一控制策略可在物体材质、形状略有变化的情况下仍保持有效性。例如,在笔记本电脑装配过程中,若缺乏合理的任务序列规划,可能导致先装部件阻碍后续操作,造成返工。此类问题需依赖大模型进行逻辑推理与动作排序优化,提前生成高效、无冲突的装配流程,从而避免资源浪费与时间损耗。

云—边—端协同:

破解全球化生产挑战的技术支点

随着国际产业链重构与贸易摩擦加剧,制造业“出海”成为必然趋势。然而,海外人力成本高昂,传统人工生产线难以复制。在此背景下,部署具备自主作业能力的人形机器人成为破局关键。

我们正探索一种新型工业范式:由中国研发团队在本地构建核心算法与训练体系,通过云—边—端协同架构远程赋能海外工厂的机器人系统。具体而言:

  • 云端大模型负责全局知识沉淀、策略生成与持续迭代;

  • 边缘节点运行毫秒级响应的小模型,实现实时控制;

  • 终端机器人执行具体任务,并将现场数据回传用于本地化训练。

该模式不仅保障核心技术不外泄,还可规避高额关税壁垒——因生产设备属本地投资,不受进口限制影响。目前,该方案已在广东省惠州市比亚迪工厂开展试点,覆盖五个典型装配场景,初步验证了其可行性与稳定性。

与此同时,分布式具身智能的概念应运而生:多个地理分布的机器人共享一个“大脑”(即大模型),通过“大小脑协同”机制实现跨区域的知识迁移与行为进化,显著提升整体系统的适应性与鲁棒性。

典型应用场景与实践进展

近年来,我们在多个垂直领域推进具身智能的实际应用:

  1. 消费电子装配:与立讯精密合作开展耳机打磨任务;在手机产线中实现软排线自动装配,借助大模型完成策略泛化,适配不同尺寸与柔性的连接件;

  2. 汽车制造:探索特斯拉人形机器人在未来整车装配中的潜力;

  3. 家庭服务:面向老龄化社会需求,开发居家养老辅助机器人;

  4. 教育民生:拓展至教学演示、公共服务等场景;

  5. 物流分拣:提升仓储自动化水平。

尤其值得关注的是长三角地区,其老龄化率预计即将突破25%,对智能服务机器人的需求尤为迫切。具身智能在此类高密度、高频次交互场景中展现出巨大社会价值。

具身智能发展的四大支柱

我们认为,未来具身智能的发展依赖于四个关键要素:

  1. 本体技术(Embodiment Technology)

    人形机器人因其高度仿生结构被视为最具潜力的通用平台。人类具有极高的负重比、双足行走所需的强平衡控制能力、以及四肢的高度自适应性,使其能在复杂环境中完成多样化操作。尤其是双手对工具的灵活使用,是其他生物难以企及的能力。因此,发展类人形态机器人,是实现通用智能体的前提。当然,针对空中、水下等特殊场景,也可探索仿鸟、仿鱼等非人形构型,但人形仍是当前研究的重点。

  2. 训练场建设(Training Infrastructure)

    单纯依赖数据与知识训练已无法满足需求,必须构建真实与虚拟融合的训练环境。既包括实体训练基地,也涵盖高保真仿真平台。通过虚实联动,降低试错成本,加速技能习得。

  3. 具身智能体多样性(Diverse Embodied Agents)

    类比人类个体差异——有人擅长数学,有人精于艺术,有人动手能力强——未来的机器人也应具备差异化专长。我们期待出现“工程师型”、“艺术家型”、“服务型”等多种智能体,服务于不同行业与任务场景。

  4. 学习与进化机制(Learning and Evolution Framework)

    智能的本质在于持续进步。正如GPT系列模型从2022年至2025年每年生成诗歌的质量不断提升,具身智能系统也应具备逐年优化操作能力的进化特性。评估一个机器人系统是否真正“智能”,不仅看其当前表现,更要看其成长轨迹。

未来展望:

高精度感知与灵巧操作的前沿突破

在硬件层面,未来数据采集设备需向快速响应、低延迟、高精度方向发展。具备穿戴式、高速动态捕捉能力的传感器将成为关键基础设施。同时,真实场景下的数据采集与模型训练需深度融合,结合计算机模拟训练场,实现低成本、高效率的闭环学习。

借此机会简要介绍我团队在灵巧手领域的长期积累:自2016年起持续参与ICRA等国际顶级会议的灵巧操作竞赛,累计参赛八次,五次荣获冠军,两次季军,一次亚军;2023年在日内瓦国际发明展获得金奖;2024年于亚特兰大举办的Sim2Real国际挑战赛中蝉联第一,三项子任务均排名第一,参赛队伍包括MIT、Stanford、Harvard等世界一流机构。

我们的灵巧手集成四类传感器:电容式、压阻式、微视觉与磁感应式,指尖感知分辨率可达0.02毫米,足以识别发丝级细软物体。在穿针引线任务中,模仿人类“用嘴抿线头”增加刚度的行为,通过食指与拇指反复摩擦线端提升操控稳定性,成功实现全自动穿线。

更进一步,我们在新一代人形机器人腕部引入肌腱驱动结构,构建仿生连续体机构,自由度高、响应迅速。在今年北京世界机器人大会上,首次实现无道具舞手绢的完整表演——包括顶绢、平绢、抛绢等多个动作,双臂独立协调运作,展现了前所未有的灵巧性与美学表达能力。明年计划在上海进行现场展示。

这一成果标志着第二代人形机器人的重要发展方向:从“能动”走向“会做”,从“执行”迈向“表现”。

资讯配图

2

国地共建人形机器人创新中心 

首席科学家

 江磊

资讯配图
资讯配图

非常荣幸在孙教授精彩报告之后,围绕“从仿真到现实”的技术闭环,分享我们团队在人形机器人与具身智能发展中的实践与思考。孙教授在其报告中首次明确提出“具身大模型”这一概念,令人深受启发。当前,随着“具身智能”成为技术热点,常有人向我提问:“具身智能大模型”与“具身大模型”有何区别?对此,我认为科技的发展重在形成共识。术语本身不必拘泥于字面差异,关键在于业界是否达成对核心范式的共同认知——即以物理交互为基础、融合多模态感知与行为学习的智能系统正在成为下一代人工智能的重要方向。孙教授的观点进一步坚定了我们的信心:这一领域的关注度正持续提升,产业共识逐步凝聚。

接下来,我将围绕三个维度汇报我们的工作:

  • 训练场的本质、定位与发展路径;

  • 数据如何驱动具身智能训练及其应用现状;

  • 未来发展方向与生态构想。

资讯配图
资讯配图

训练场:人工智能时代的新型“数据工厂”

资讯配图
资讯配图

2023年11月,工业和信息化部发布《人形机器人创新发展指导意见》,明确提出“建设3—5个国家级人形机器人训练示范基地”。当时,这一提法尚未引起广泛关注。而今回望,这正是对未来研发范式变革的前瞻性判断。

我们国地共建人形机器人创新中心(上海)自2023年5月17日成立以来,致力于打造支撑具身智能发展的基础设施体系。经过一年多的努力,我们发布了首款人形机器人“青龙”,建成并投入运行“麒麟训练场”,并于今年上线了首个百万级异构具身数据集——白虎数据集(Baihu Dataset),现已通过OpenLoong开源社区面向公众开放下载。

同时,我们联合发布了“龙腾具身智能”系统平台,并正式推出OpenLoong开源生态,旨在推动数据、算法与硬件的协同创新。

作为国家级创新平台,我们的定位日益清晰:不专注于整机制造,也不直接研发通用大模型,而是聚焦于高质量具身数据的持续采集、治理与共享。我们认为,数据是连接物理世界与智能系统的桥梁,也是本轮人形机器人技术跃迁的核心要素。

目前,除上海总部外,我们已在河南郑州、江苏常熟设立两个区域分中心,并正在与更多地方政府合作推进分布式训练场建设。欢迎有需求的合作方与我们联系,共同拓展训练网络。

资讯配图
资讯配图

为何需要训练场?

从数据采集范式的演进谈起

资讯配图
资讯配图

在过去一年的实践中,我们深刻体会到:本轮人形机器人的发展,本质上重构了传统的“AI+机器人”研发范式。

传统路径通常是:先设计机器人本体 → 建立动力学模型 → 在特定场景部署小模型进行控制优化。

而新范式则是:完成本体开发后 → 立即进入训练场 → 大规模采集真实交互数据 → 构建具身大模型 → 最终迁移至多样化应用场景,生成面向具体任务的智能体。

这一转变标志着机器人研发从“模型驱动”走向“数据驱动”,其核心支撑正是训练场。那么,训练场应如何构建?我们经历了三个阶段的技术迭代:

第一阶段:人体动作捕捉采集(2023年初)

初期尝试使用人体动捕设备获取操作数据。然而很快发现,人类虽具备丰富行为能力,但难以将全部感知信号数字化,且存在动作映射失真问题,数据有效性受限。

第二阶段:遥操作人形机器人采集

改为由操作员通过遥控装置指挥真实人形机器人执行任务,同步记录其全传感器数据流(包括关节力矩、IMU、视觉、触觉等),并通过总线系统实现高精度时间戳标记(采样频率可达200–400Hz)。该方式显著提升了数据的真实性与可追溯性。

第三阶段:虚实融合的高保真训练环境构建

当前,我们正推动训练场迈向2.0时代——不仅依赖集中式实体场地,更强调便携式、可部署于真实作业现场的轻量化训练单元。同时,必须建立与之对应的物理仿真训练场(Digital Twin),实现真实数据与虚拟仿真的精准对齐,完成“仿真→现实”的闭环验证与策略迁移。

因此,现代意义上的训练场,绝非简单的物理空间堆砌,而是集真实场景、数字孪生、异构传感、时空对齐与大规模并行训练于一体的综合性数据生产系统。

资讯配图
资讯配图

训练场的定位再思考:谁该建?建什么?

资讯配图
资讯配图

需要指出的是,当前重资产投入的集中式训练场模式,并不适合所有机器人企业。重复建设将造成资源浪费。我们认为:训练场不仅是基础设施,更是一项关键技术。 它承担着多重职能:高质量数据的规模化采集;工艺知识的沉淀与标准化;跨学科人才的培养平台;区域产业生态的孵化载体。

因此,这类综合性训练场更适合由国家级或省级创新中心牵头建设,发挥公共平台作用。我们建议大多数本体厂商无需自行复制此类设施,而应聚焦于终端产品创新与垂直场景落地。

未来更具普适性的方向是轻量化、模块化、可迁移的“现场训练单元”,能够深入工厂、医院、家庭等实际环境,实现“在哪用,在哪训”。我们也诚邀各方提供解决方案,共同推进下一代训练场技术的发展。

资讯配图
资讯配图

训练什么?如何训练?

——具身大模型的构建路径

资讯配图
资讯配图

当前,国内已有近20家主流人形机器人品牌接入麒麟训练场,涵盖双足、轮足等多种形态,如智元“星海图”、RoboButler等。我们在收集真实交互数据的同时,同步构建高保真的虚拟仿真环境,确保虚实之间在动力学、接触力学与感知响应上高度一致,真正实现“虚实融合、双向闭环”。

在此基础上,我们提出:无论采用何种技术路线,具身智能的发展都离不开大规模、高质量、异构化的数据集支持。

然而必须承认,当前具身智能的技术路径尚未收敛。我们认为,主要存在四类主导力量:

  • 自动驾驶领域(强调环境感知与决策);

  • 工业机械臂领域(专注精密操作与轨迹规划);

  • 腿足式机器人领域(解决动态平衡与地形适应);

  • 芯片与算力领域(提供底层硬件支撑)。

这四条技术脉络长期独立发展,尚未形成有效融合。唯有当它们在某一交汇点实现深度协同——即在同一具身平台上完成感知、决策、运动与执行的统一——具身智能才可能真正实现产业化突破。

最后,我想澄清一个常见误解:人形机器人不等于具身智能,具身智能也不局限于人形机器人。

以Figure公司为例,其发布的机器人产品名为 Figure,而其背后的智能系统则命名为 Helix。这一命名区分极具启示意义:

“Figure” 是物理载体(body);

“Helix” 是智能内核(mind)。

正如孙教授所言,“具身大模型”才是赋予机器人认知与行为能力的核心。只有当身体与智能深度融合,才能称之为真正的具身智能体。

因此,从产业发展角度看,有必要明确区分“本体制造”与“智能构建”两大方向,避免概念混淆导致资源错配。

资讯配图
资讯配图

具身大小脑:具身训练场的上限加速器

资讯配图
资讯配图

在当前人形机器人与具身智能快速发展的背景下,如何构建支撑大规模智能进化的技术体系,已成为产业界和学术界共同关注的核心议题。在此,我想分享我们在系统架构设计、训练范式演进以及平台生态建设方面的思考与实践。

从“快-慢系统”到大模型时代的双足行走

  • 以Figure公司提出的Helix架构为例,其采用“快-慢系统”(Fast-Slow System)的设计思路——将高层决策与底层控制分离,分别由大模型与小模型协同完成任务执行。这一架构在当时具有前瞻性,但从今天的技术发展来看,既体现了创新,也显现出一定的局限性。

回顾2023年,我们团队率先提出将人形机器人的“大脑”与“小脑”功能进行解耦:

  • “大脑”负责高级语义理解、任务规划与环境认知;

  • “小脑”专注于运动控制、平衡调节与实时反馈。

当时我们提出一个关键问题:“双足行走是否属于人工智能范畴?”在彼时,几乎无人认同这一观点——多数人仍将双足行走视为传统控制工程问题。然而,随着技术演进,我们正逐步验证这一判断:

  • 2023年,语言大模型兴起;

  • 2024年,双臂操作进入大模型驱动时代;

  • 我们预测:到2025年下半年至2026年上半年,双足行走也将全面迈入大模型阶段。

这不仅是一次技术跃迁,更是对“智能”本质认知的深化——动态运动本身即是智能的重要体现。

训练场的新使命:

基于大模型的小脑与行走建模

当前,人形机器人训练场的核心价值已超越传统的数据采集与仿真验证,其根本任务在于:依托通用大模型基础,开展面向小脑功能与全身运动生成的专项模型创新。

相较于波士顿动力时代以模型驱动、规则主导的研发范式,如今的“人形机器人+具身智能”已转向以数据驱动为核心的新路径。这一转变要求重构整个开发流水线(pipeline),原有基于正向设计的软硬件工具链已难以适应新型系统的复杂性与开放性。

为此,我们必须建立一个端到端的闭环开发体系,实现从数据采集、模型训练、仿真验证到真实部署的全链路贯通。而其中的关键瓶颈,并非来自单一技术模块,而是整个行业缺乏统一、高效、可扩展的开发基础设施。

资讯配图
资讯配图
资讯配图

打造具身智能开发平台:

破解四大核心挑战

为应对上述挑战,我们正在构建名为“格物致知”的具身智能开发平台(GeWu Embodied Platform),旨在提供一套完整的工具链支持,推动具身智能的标准化与大众化开发。该平台重点解决以下四个关键问题:

  1. 异构机器人的快速适配 

    当前训练场已接入国内主流20余款人形机器人,涵盖双足、轮足等多种形态。我们的目标不仅是服务现有设备,更要实现跨构型、跨厂商的数据与模型通用性,推动异构系统间的互操作能力研究。

  2. 模块化模型组合机制 

    尽管“端到端”训练被广泛讨论,但人类智能并非单一网络所能模拟。我们认为,未来具身智能应采用“积木式”组件化架构——通过可复用的功能模块(如抓取、行走、避障等)灵活组合,形成任务级智能体。

  3. 降低开发门槛 

    过去人形机器人开发高度依赖顶尖人才,周期长、成本高。我们致力于打造低代码、易上手的开发环境,使更多开发者、高校团队乃至中小企业能够参与其中,真正实现“人人可开发、处处可部署”的普惠化愿景。

  4. 虚实融合的一站式流程 

    平台集成麒麟训练场的真实数据采集能力与高保真仿真环境,支持用户上传自定义URDF模型,在统一模板下完成数据对齐、策略训练与迁移部署,形成“仿真—现实”闭环。

目前,白虎数据集(Baihu Dataset)已正式上线OpenLoong开源社区,开发者可通过扫描二维码下载使用。同时,我们正与阿里云、百度、华为云及Figure平台合作,推动数据集与工具链的深度集成,实现一站式部署体验。

预训练方向:

从操作到全身运动的大模型探索

在模型层面,我们持续投入于视觉-语言-动作模型(VLA)的迭代优化,不仅用于操作任务,更拓展至行为大模型与全身运动预训练的研究。通过在训练场中积累大量双足行走、姿态调整、多关节协调等数据,我们正构建面向全身动力学的预训练数据集,为未来通用运动智能奠定基础。

云端训练平台与格物仿真系统的结合,使得开发者可在平台上选择预设构型模板,或将自有模型上传对齐后直接调用训练资源,显著提升开发效率。

共建开源生态:

打造中国的RCP愿景

我们的长期愿景是:构建一个类似语言大模型MCP(Model Context Protocol)的机器人通用平台协议——RCP(Robotics Common Platform),实现模型在不同机器人之间的无缝迁移与泛化应用。

为实现这一目标,我们已启动以下工作:

  • 推出 OpenLoong 开源项目,并捐赠给开放原子开源基金会;

  • 正在组建多个SIG(Special Interest Group),邀请头部企业、科研机构与个人开发者共同参与模块开发;

  • 推动人形机器人相关标准体系建设,涵盖团体标准、行业标准、国家标准乃至国际标准,避免重复试错,加速产业规范化进程。

需要明确的是,国地共建人形机器人创新中心并非一家整机制造企业。我们的核心使命聚焦于两个方向:

  1. 开源生态建设:打造开放、共享、协作的开发者社区;

  2. 标准与方法论输出:总结实践经验,形成可复制的技术路径,服务于全行业。

在今年世界人工智能大会上,我们展示了“十八罗汉”计划——汇聚全国最具代表性的头部机器人企业,共同推进共性技术研发与平台共建。这不仅是展示,更是协作的起点。

资讯配图

3

星海图联合创始人兼首席科学家;

清华大学交叉信息研究院助理教授,

博导

清华大学具身智能实验室负责人

许华哲

资讯配图
资讯配图

大家好,我是华哲,来自星海图。今天很荣幸与大家分享我们在具身智能(Embodied Intelligence)领域的一些探索与思考,特别是关于“下一代具身智能将走向何方”的实践路径。

首先,请允许我通过一段视频引入今天的主题——这是我们近期发布的G0模型的实际表现。G0基于100%开放的真实世界数据进行训练,机器人被部署于汉庭、如家、7-Eleven、罗森等真实生活场景中,自主采集人类日常行为数据,并完成一系列复杂任务。

这些任务涵盖酒店服务、零售补货、办公环境整理等多个维度,共计包含150项具体操作,例如开启行李箱、整理拖鞋、收纳衣物等。尽管部分任务看似简单,但其背后涉及对非结构化环境的高度适应能力,以及对柔性物体、铰接结构和动态干扰的精细操控。

资讯配图
资讯配图
资讯配图

支撑G0模型的核心架构是“慢思考 + 快执行”的双层级大模型系统。该系统在完成视觉-语言-动作(Vision-Language-Action, VLA)预训练后,仅需少量样本即可在新环境中实现高效迁移。例如,在办公室搭建的模拟床铺场景中,尽管原始训练数据来源于酒店环境,G0仍能利用数百条微调数据快速掌握长程、多步骤的柔性织物整理任务,展现出强大的跨场景泛化能力。

作为端到端学习框架的一部分,G0不仅能执行桌面级连续任务——如将耳机放入支架、笔归入笔筒、笔记本放置书架——还能处理涉及铰链结构的复杂操作:包括抓取华夫饼、打开微波炉门、放入容器并关闭炉门等完整流程。在整个过程中,机器人并非依赖绝对精准的控制逻辑,而是凭借感知反馈不断调整动作策略,即使出现短暂失误也能自主修正,最终成功完成任务。

这种“容错—恢复—再执行”的能力,正是“智能”二字的本质体现:具身智能不追求机械式的完美复现,而强调在不确定性中持续逼近目标的行为韧性。

G0模型也已接受公众检验。在北京世界机器人大会期间,我们进行了为期三至四天的现场演示,每半小时执行一次床铺整理任务,获得了广泛认可。这一实践进一步验证了真实数据驱动下模型在开放环境中的鲁棒性与实用性。

资讯配图
资讯配图

数据为基:真实世界是具身智能的终极考场

资讯配图
资讯配图

当前,业界普遍认同:数据是推动具身智能发展的核心驱动力。我们所采取的技术路径,是以高质量真实数据为基础的模仿学习(Imitation Learning),辅以深度神经网络建模。

如图所示,左侧列举了一系列传统编程或经典控制方法难以解决的任务,如手术缝合、系鞋带、衣物折叠等高度依赖触觉反馈与精细协调的操作;而右侧则展示了我们的解决方案——依托真实世界采集的数据集,让机器人从人类行为中直接学习策略。

在数据金字塔体系中,尽管仿真数据与互联网数据具有成本低、规模大的优势,但始终存在“Sim2Real Gap”与“Web2Real Gap”,即虚拟或网络信息与物理现实之间的语义与动力学偏差。更值得注意的是,即便同属“真实数据”,也存在显著的“Real2Real Gap”。

例如,实验室中规整摆放的桌面任务场景(左图),与真实饭店、超市或家庭环境中杂乱无章的物品分布(右图)之间存在巨大差异。我们早期在办公室采集的数据无法覆盖诸如“地面上堆放塑料箱,箱内装有空瓶”这类非标准化情境。这类细节缺失会严重影响VLA模型的语言理解能力与动作生成质量。

为此,我们在“星海图开放世界数据集”建设中,采用自主研发的R1 Lite 数据采集平台,深入50余个真实场景,涵盖酒店、餐厅、厨房、零售店及办公空间等多元环境。采集过程遵循“人在环路、自由打伞”的原则——每天由工作人员提出新任务设想,次日即开展实地采集,确保数据覆盖真实生活中个体可能执行的各类行为。

该数据集不仅记录了丰富的多模态交互信息,还进行了严格的清洗与标注处理。针对原始行为流中存在的冗余动作或无关行为,我们进行了有效过滤,并对每个任务分解为可解析的子步骤序列。唯有如此,才能真正实现“L” in VLA 中的 Language 对齐,为后续模型训练提供可靠监督信号。

资讯配图
资讯配图

开放共享:共建具身智能生态

资讯配图
资讯配图

目前,该数据集已完成初步构建,未来我们将逐步对外开放。同时,我们也计划发布G0模型的权重参数,支持社区在已有基础上进行微调与二次开发。

对于尚未具备完整预训练能力的研究团队或企业,可以直接基于G0开展特定场景下的后训练(Post-training),用于科研探索或实际落地应用。我们相信,只有当数据与模型双重开放,才能加速整个具身智能生态的成长。

这不仅是技术输出,更是生态共建的责任。我们希望未来的机器人不仅能学会人类“愿意做的事”,更能掌握那些“不想做却不得不做”的重复性、繁琐性工作,从而真正服务于社会生产与日常生活。

资讯配图
资讯配图

迈向通用具身智能:

三阶段预训练范式与开放生态构建

资讯配图
资讯配图

在当前具身智能快速演进的背景下,一个核心问题日益凸显:我们的模型究竟学到了什么?其性能提升的背后是否存在可复现、可扩展的技术路径?

基于星海图G0模型的研发实践,我们提出并验证了一种新的三阶段训练架构,旨在系统性提升模型在真实世界中的泛化能力与部署效率。该框架不仅揭示了当前阶段具身大模型的有效训练机制,也为未来通用智能体的发展提供了方法论支撑。

三阶段训练范式:

从跨本体预训练到任务级微调

传统具身智能模型通常采用“跨本体预训练 + 目标任务后训练”的两阶段模式。然而,我们在实践中发现,这种路径在面对复杂现实任务时仍存在适应性不足的问题。

为此,我们在原有基础上引入第二阶段预训练(Stage 2 Pre-training),形成完整的三阶段流程:

  1. 第一阶段:跨本体预训练(Cross-Embodiment Pre-training)

    利用开源数据集(如Franka、智源等机构发布的多平台操作数据),在多种机器人构型上进行联合训练,学习通用的感知-动作映射关系,建立初步的通用策略基础。

  2. 第二阶段:本体适配预训练(Embodiment-Specific Pre-training) 

    基于我们自建的Open World Dataset(500小时真实场景数据),在目标机器人平台上进行针对性再训练。该数据集覆盖酒店、餐厅、零售、办公等50余类真实环境,包含150项日常任务,确保模型深入理解特定本体的动力学特性与交互模式。

  3. 第三阶段:任务级后训练(Task-Specific Post-Training) 

    在具体应用场景中,使用少量样本(如20条轨迹)进行快速微调,实现对新任务的高效迁移。

实验结果表明,相较于仅依赖跨本体预训练直接进入后训练的方式,三阶段范式显著提升了最终任务表现。这说明:尽管“一个大脑服务所有机器人”是理想愿景,但在当前技术条件下,选择合适本体并在其上深耕高质量数据,仍是实现最优性能的关键路径。

第二阶段预训练的有效性与边界

为评估各阶段贡献,我们设计了一系列标准评测任务,包括桌面整理、微波炉操作、床铺整理、方块堆叠等典型长程连续任务,并将G0模型与P0模型进行对比测试。

结果显示,G0(橙色曲线)整体性能优于基于P0的同类后训练方案,验证了第二阶段预训练的价值。尤其值得注意的是,在“铺床”任务中,使用跨本体数据预训练的效果反而低于仅使用本体自有数据的方案(倒数第二根柱)。进一步分析表明,现有开源数据集中几乎不包含铺床相关行为,导致负迁移现象发生。

这一发现揭示了一个重要规律:预训练并非数据量越大越好,而是要求源数据与目标任务之间具备语义或技能层面的相关性。无效的“广度”可能稀释有效知识,甚至干扰模型收敛。因此,合理的数据筛选与任务对齐机制至关重要。

小样本学习的潜力:

边际成本下降的曙光

更具意义的是,G0模型在仅使用20条样本的情况下即可达到较高任务成功率。这一能力标志着具身智能正逐步实现“边际部署成本递减”的关键突破。

过去,每项新任务往往需要数周乃至数月的人工调试与数据采集;而如今,借助高质量预训练模型,开发者可在极短时间内完成新场景适配。未来,随着模型能力持续进化,有望进一步实现5条、1条甚至零样本迁移,真正迈向高效率、低成本的智能部署时代。

共建开放生态:

数据、模型与社区的三位一体

星海图始终致力于推动具身智能的普惠化发展。目前,Open World Dataset 已全面开源,累计下载量达数万次,广泛应用于全球研究机构与企业开发中。

同时,我们宣布:G0具身大模型的权重参数将于本月末正式开源,目前已进入最后工程化整理阶段。开发者可通过以下方式参与生态建设:

  • 下载数据集开展独立研究;

  • 基于G0模型进行垂直领域微调;

  • 参与后续开放社区的技术共建。

我们已与多家国内外领先机构建立合作关系,包括:

  • 国际企业:NVIDIA、π Robotics、SKLD 等;

  • 国内头部企业:蚂蚁集团、字节跳动、京东、腾讯等;

  • 科研机构与高校:北京/上海人形机器人创新中心、上海人工智能实验室、上汽研究院、清华大学、北京大学、斯坦福大学、麻省理工学院等。

这些合作不仅体现在技术集成,更延伸至联合研发与平台共建,共同探索具身智能的前沿边界。

长期愿景:

走向物理智能的涌现

我们的终极目标,不是打造一个个专用机器人——比如只会叠被子的“叠被机”——而是构建能够跨任务、跨场景、跨形态自主适应的通用具身智能体。

为此,我们正与全球开发者共同探索一条名为 “Scaling Law” 的发展路径。尽管当前机器人领域的数据规模尚处于起步阶段(星海图当前开源500小时,计划明年扩展至10,000小时),关于是否存在类似大模型时代的“智能涌现”规律仍在激烈讨论中,但我们坚信:当数据量达到临界点时,真正的物理智能将开始显现。

正如摩尔定律曾驱动计算革命,未来的“具身智能 Scaling Law”或将定义新一代AI的演进节奏。它不应局限于单一功能的优化,而应表现为在做饭、拧螺丝、抗震救灾、家庭服务等多种任务间的无缝切换与协同能力。

人人可参与的智能未来

在星海图,我们的长期愿景是:

为全球开发者搭建一块开放、夯实、高效的具身智能试验场。

  • 开放:每个人都有权利获取数据与模型,平等参与技术演进;

  • 夯实:提供的不仅是海量数据,更是可直接用于训练的高质量资源;

  • 高效:通过标准化benchmark、预训练模型与工具链,降低创新门槛,让开发者聚焦于核心算法与应用创新。

我们并不追求垄断智能,而是希望成为基础设施的提供者,与所有人一起“比一比、卷一卷、合作一把”,共同推动具身智能从实验室走向千家万户。

唯有如此,我们才能迎来那个真正意义上的通用人工智能时代——

一个不仅能叠被子,更能理解世界、服务人类、改变社会的智能体时代。

资讯配图

4

银河通用机器人联合创始人、

大模型负责人

 张直政

资讯配图
资讯配图

今天我给大家带来的分享是仿真合成数据驱动具身大模型实现产业智能化,从这个名字大家就可以感觉到在目前很多单位追求技能多而广的同时我们银河通用要关注技能的精通以及产业落地,我们如何把一个技能从可行练到能够落地使用。

银河通用是2023年5月成立于北京海电的一家具身智能创业公司,截至目前我们已经成为这个行业的独角兽公司,我们愿景是把具身智能大模型所带来的智能和我们的高性能人形硬件本体结合起来,形成一个完整的产品力服务,让它真正能够实现跨行业应用、走进千家万户、服务千行百业。

大家知道人形机器人它的硬件本体是一个高自由度的本体,它的智能来自于我们去生产大量的数据、各种各样的技能、各种各样场景里面的数据训练它,实现它不仅能够行走、不仅能够跳舞,最重要是能够干活。

要实现干活这件事情我们要直面的行业重点问题就是具身智能的训练数据从哪里来?目前整个行业大家摸索出一系列有效的途径,比如说以特斯拉为首和诸多具身智能创业公司他们所采用的主要方式是采用真机遥操作,就像这个图中展示的一样,主要是通过动捕设备把人和机器人的动作同步起来,通过VR设备把人的视觉和机器人的视觉进行同步,把这样的数据记录下来用来训练机器人。

资讯配图
资讯配图

仿真合成数据优势“硬刚”真实数据采集瓶颈

资讯配图
资讯配图

在具身智能的发展进程中,数据获取的方式与规模正成为决定技术能否实现广泛落地的关键因素。以特斯拉在电池分拣任务中的训练为例,其使用了数十万条真实采集数据,投入超过40人耗时一个多月完成数据采集。若按国内人力成本估算,仅此一项即需数百万元人民币,而在海外则成本更高。这种依赖真机操作、人工遥操的数据采集方式不仅耗时耗力,且难以持续扩展。

更为关键的是,当前机器人硬件尚处于快速迭代阶段,新形态、新结构不断涌现。当硬件发生变更时,此前采集的真实数据往往难以复用或迁移,导致数据资产的可持续性面临严峻挑战。与此同时,随着模型能力需求的提升,从图文大模型、视频大模型到具身智能大模型,所需数据量呈指数级增长。可以预见,真正实现跨行业、跨任务泛化的具身大模型,可能需要上万亿级别的交互数据支撑。在此背景下,完全依赖真实世界数据采集已不具备可行性与经济性。

针对这一核心瓶颈,银河通用自创立以来始终坚持并深化“仿真合成数据”为核心的技术路线。相较于真实数据采集,仿真数据虽在语义和物理细节的真实性方面存在一定局限,但其优势显著:更高的可控性、更强的一致性以及卓越的可扩展性(scalability)。特别是在动作学习层面,人类作为非标准化本体,在重复操作中存在明显的动作偏差与定位误差,导致真实采集的动作数据一致性差,进而影响模型的学习效率。而仿真环境可通过精确控制参数生成高一致性的动作轨迹,大幅提升样本利用效率。

语义理解方面的短板已被大规模语言模型和多模态模型所弥补。通过融合互联网文本、图像及视频等海量数据,机器人可在无需依赖大量真实场景数据的情况下掌握丰富的语义知识。因此,银河通用提出“动作用仿真,语义补真实”的混合学习范式,并构建了一套完整的仿真合成数据 pipeline——涵盖多样化本体建模、任务逻辑生成、动作轨迹规划到高保真渲染的全流程自动化系统,实现了高质量、低成本、高效率的动作数据规模化生产。

资讯配图
资讯配图

两阶段训练范式:从“通识教育”到“职业培训”

资讯配图
资讯配图

基于该数据体系,银河通用确立了两阶段的具身模型训练范式:第一阶段为“通识预训练”,即利用百亿乃至千亿级的仿真合成数据对模型进行大规模预训练,使其具备基础的视觉、语言与动作泛化能力,类比于人类接受义务教育的过程;第二阶段为“场景微调”,通过少量真实世界数据进行针对性优化,使模型适应具体应用场景的需求,相当于职业培训阶段。这种“先通用、后专用”的训练架构显著提升了后训练阶段的样本效率。

实证表明,在未使用预训练基模的情况下,完成类似电池有序分拣的任务需采集数十万条真实数据,耗时逾月;而在引入大规模仿真预训练后,仅需约200条真实样本,单名操作员半天内即可完成技能迁移,样本效率提升达千倍以上。未来随着仿真技能覆盖范围的扩大,效率增益有望达到万倍甚至十万倍量级。

然而,实验室中的性能突破并不等同于商业化落地的成功。为此,银河通用历时半年将基础抓取模型推进至真实零售场景的应用层级。过程中经历了从平面抓取到立面取物、从稀疏货架到密集排列、再到挂装物品操作的多重演进。尤其在密集货架场景下,物体间无间隙排列使得传统避障路径规划失效,要求模型具备对物理交互的深层理解——能够判断何种接触属于可接受的必要碰撞,何种可能导致秩序混乱或设备损坏而必须规避。

此外,在处理易滑动的悬挂商品时,系统还需具备高频闭环调整能力,实时响应姿态变化。经过持续迭代,目前已实现在100%真实还原的复杂货架环境中,稳定完成桶装、瓶装、袋装、盒装等多种形态商品的精准取放,形成完整的产品服务能力。该系统已在WAIC展会中公开展示,并获得李强总理亲自体验与认可。

除单手操作外,依托仿真带来的并行学习能力,模型已实现双手协同作业——例如一手抓取柔性袋装物品,另一手稳定拾取平放瓶体,动作协调且鲁棒性强。这一能力标志着机器人在执行效率层面有望超越人类,因其不受“一心不能二用”的生理限制,具备真正的并发控制潜力。

在导航能力方面,基于大规模合成导航数据的训练,机器人可在未见过的室内环境中实现长距离自主移动。例如在北京五棵松万达商场内,无需预先建图或现场采数,即可完成目标跟随、动态避障、光照干扰抵抗等复杂行为。更值得注意的是,在仅训练目标跟踪任务的前提下,模型涌现出对宠物追踪、换衣后身份保持、黑暗环境下识别黑衣人等未显式教授能力的泛化表现,体现了大规模合成数据驱动下的“技能涌现”现象。

资讯配图
资讯配图

商业化落地实践:

覆盖零售、工业、教育与服务场景,toC同时发力

资讯配图
资讯配图

目前,该具身智能系统已在多个领域实现商业化部署。在零售领域,与美团等企业合作推进智能仓储全流程自动化;在北京中关村大融城开设首家面向消费者的24小时智能零售太空舱,计划启动“十城百店”战略,推动服务规模化落地。在酒店场景中,集成订房系统提供迎宾接待与交付服务;在教育领域,成为全球首家承办国际奥林匹克机器人赛事的企业,为来自63个国家的80余支队伍提供从仿真训练到真机验证的全链路平台支持,助力青少年科技人才培养。

工业应用方面,与国内外车企合作开展零部件识别与货箱搬运任务。面对紧密排列的货箱结构,系统可根据空间约束自动选择提取策略——无遮挡时直接提拉,有遮挡时采用双手机械协同抽拉抬升,全过程无需硬编码编程,体现高度泛化能力。同时,与英伟达深度合作,推出搭载Jetson Thor芯片的GalBot升级版机器人,显著提升运算能力与运动响应速度,实现接近“漂移”级别的流畅搬运表现(视频为原速播放,未加速)。

此外,与博世联合成立合资公司,致力于推动具身大模型在高端制造场景的深度落地。当前业务以ToB为主,覆盖零售与工业两大主线,未来将持续拓展ToC市场,在接待、康养等领域深化布局,推动机器人真正走进千家万户,服务于千行百业。

银河通用通过构建以仿真合成数据为核心的全栈技术体系,走出了一条高效、可扩展、可持续的具身智能发展路径。唯有通过系统级创新与闭环迭代能力,才能跨越从实验室原型到规模化商用之间的鸿沟,最终实现具身智能的广泛落地与社会价值释放。


资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
工厂
more
意法半导体重启阿格拉特工厂工业计划
刘强东喊话美团王兴,iPhone18Pro已打样,小米汽车二期工厂部分验收通过,阿里自研AI芯片,这就是今天的其他大新闻!
对话吴穹:软件开发的终局,是我们将迎来自己的“黑灯工厂”
从企业分布到装机量:68家热管理供应商的工厂与配套信息图谱
工厂为什么出现用工荒?东莞打工妹说出心酸内幕
刚刚,英飞凌卖了一个工厂
央视《朝闻天下》:轻点“配方”就能自动调好面膜原材料?记者探访智能工厂
福特汽车一工厂计划裁员不超1000人!
SK On建成全固态电池试点工厂
最新!全球灯塔网络201家工厂列表,位于中国85家,海尔12座全球最多!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号