Galaxea 团队推出：大规模高质量开放世界机器人数据集与G0双系统VLA模型

点击下方卡片，关注“具身智能之心”公众号

作者丨Galaxea Team
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

核心贡献总览

Galaxea开放世界数据集是一个在真实人类生活与工作环境中记录的大规模、多样化机器人行为集合。所有演示数据均采用统一的机器人实体进行采集，并配有精确的子任务级语言标注，以同时支持训练与评估。基于此数据集，提出G0双系统框架：通过视觉语言模型（VLM）进行多模态规划，并与视觉-语言-动作模型（VLA）协同实现细粒度执行。G0采用三阶段课程训练：跨实体预训练、单实体预训练和任务特定后训练。通过涵盖桌面操作、少样本学习和长程移动操作的综合基准测试，方法展现出显著有效性。特别值得注意的是，单实体预训练阶段与Galaxea开放世界数据集的结合对实现强劲性能具有关键作用。本工作聚焦机器人视觉-语言-动作（VLA）模型的落地痛点——大规模高质量开放世界机器人数据稀缺与模型泛化能力不足，提出两大核心成果：

Galaxea Open-World Dataset：首个在真实人类生活/工作场景中采集的大规模机器人行为数据集，解决现有数据集场景单一、本体不一致、标注粗糙的问题；
G0双系统框架：耦合“慢思考”的视觉-语言模型（G0-VLM）与“快执行”的VLA模型（G0-VLA），通过三阶段训练策略实现复杂任务的规划与精准执行，在桌面操作、少样本学习、长程移动操作等基准测试中表现优异。

Galaxea Open-World Dataset

该数据集是G0模型性能的基础，核心设计围绕“真实场景适配”与“模型训练友好性”展开，关键特征如下：

数据采集基础

统一机器人本体：所有数据通过Galaxea R1 Lite移动双臂机器人采集（Figure 2a），该机器人具备23个自由度（双臂各6DoF、躯干3DoF、全向底盘6DoF），搭载头部立体RGB相机（场景全局感知）与手腕RGB-D相机（精细操作感知），负载能力达5kg，可在狭窄空间灵活移动；

真实场景覆盖：在11个物理站点的50个独特场景中采集（Figure 2b），涵盖住宅、零售、餐饮、办公四大核心场景（Figure 3a），避免现有数据集“实验室受控环境”的局限；

数据规模与标注：总计500小时数据、10万条演示轨迹，覆盖150类任务、1600种物体、58种操作技能（如拾取-放置、全身协同操作），并以2Hz频率标注细分子任务指令，实现“视觉-语言-动作”的精准对齐。

数据多样性特征

数据集通过多维度多样性保证模型泛化能力，关键统计可见Figure 3-5：

场景与物体分布：住宅场景占比最高（50.8%），其次是办公场景（33.2%）（Figure 3a）；物体覆盖家电、日用品、家具、食品等10余大类（Figure 3b），对unsafe/难重复操作的物体（如食物）采用高保真复制品；
任务属性：任务时长呈“中等为主、长尾分布”（Figure 4a），既包含短时间精细操作，也包含长程复杂任务（如整理床铺）；任务复杂度（子任务数量）差异显著（Figure 4b），从单步动作到多步协同操作均有覆盖；

行为模式：操作中“仅手臂”“躯干+手臂”“全身协同”的动作占比均衡（Figure 5a），技能分布呈长尾特征（Figure 5b），既包含高频基础动作（拾取），也包含特殊技能（如打开冰箱、倾倒水壶）。

与现有数据集的差异

相较于BridgeData V2、Open-X-Embodiment等主流数据集，该数据集的核心优势在于：

单一本体一致性：避免多本体数据导致的动作空间混乱，让模型专注学习“感知-动作”映射；
细分子任务标注：不同于现有数据集的“任务级标注”，子任务级标注（如“打开洗衣机门→放入脏衣服→关闭门”，Figure 6）为VLA模型提供更精准的语言-动作对齐信号；

完全开放世界场景：数据采集无预设脚本，还原人类真实生活中的任务场景（如杂乱桌面整理、日常做饭），解决“实验室数据与真实环境脱节”的 domain gap 问题。

G0双系统框架与训练策略

G0的核心设计灵感来自Kahneman的“双系统理论”：System 2（慢思考）负责规划，System 1（快执行）负责反应，两者异步运行（G0-VLM以15Hz规划，G0-VLA以200Hz控制），平衡“规划合理性”与“执行实时性”（Figure 1）。

双系统分工

G0-VLM（System 2：慢思考）：接收人类高层指令（如“帮我整理床铺”），结合场景视觉观察，将其分解为可执行的子任务序列（如“走向床铺→抬起躯干抓被子→向后倾斜躯干→抚平被子”），并传递给G0-VLA；
G0-VLA（System 1：快执行）：接收G0-VLM的子任务指令、实时视觉观察（3路相机）与机器人本体状态（关节角度、位置等），生成连续动作序列（动作块），实现闭环控制。

G0-VLA的三阶段训练策略

为兼顾“通用知识”与“特定本体适配”，设计递进式训练流程（Figure 7），每个阶段目标与方法明确：

阶段1：跨本体预训练（获取通用世界知识）

目标：让模型学习机器人操作的通用规律（如“拾取物体需先闭合夹爪”），而非特定机器人的运动特性；
数据：混合1000小时Open-X-Embodiment（OXE）数据、500小时Galaxea数据集（仅用任务级描述）、200小时内部未标注数据；
训练方式：仅训练VLM组件，采用FAST分词器将连续动作转换为离散token，以自回归交叉熵损失训练VLM预测下一个动作token，公式如下：

其中为离散动作token序列，为视觉观察，为语言指令，为本体状态；VLM基于PaLiGemma初始化，包含SigLIP视觉编码器与Transformer语言解码器。

阶段2：单一本体预训练（适配目标机器人）

目标：让模型掌握Galaxea R1 Lite的运动学、动力学特性，提升动作精度与语言-动作对齐能力；
数据：使用Galaxea数据集的完整标注数据（含子任务指令、动作轨迹）；
训练方式：在阶段1 VLM基础上新增“动作专家”模块，以流匹配损失（flow-matching loss）训练连续动作生成，目标函数与损失函数如下：
目标函数（最大化动作条件概率）：

流匹配损失（最小化预测流与目标流的差异）：

其中为带噪声的插值动作，为模型预测流，为动作轨迹导出的目标流。

阶段3：任务特定后训练（精修复杂技能）

目标：针对特定复杂任务（如微波炉操作、积木堆叠）优化模型性能；
数据：每个任务仅用最多100条高质量轨迹，避免过拟合；
训练方式：沿用阶段2的流匹配损失，仅微调动作专家与VLM的顶层参数。

G0-VLM的训练

G0-VLM基于开源Qwen2.5-VL初始化，通过“标注数据+合成指令”进行指令微调：

数据构建：从Galaxea数据集中采样 episodes，优先选择“子任务结束时刻”“夹爪状态变化”等关键帧，输入1秒间隔的历史视觉观察与动作，形成包含“任务名称-历史观察-子任务指令”的数据集；
合成人类指令：用DeepSeek-R1推理LLM，基于的任务名称、子任务序列，生成人类风格的高层指令（如“我想坐下，能帮我拉开椅子吗？”）与机器人回应（如“我正在处理！”），增强模型的人机交互适配性。

实验评估与关键发现

实验围绕“数据集有效性”与“G0模型性能”展开，设计四大基准任务（桌面整理、微波炉操作、整理床铺、积木堆叠，Figure 8），核心发现如下：

G0-VLA的性能评估

针对“预训练如何影响VLA性能”的核心问题，设计多组对比实验：

预训练权重的影响

对比5种模型配置（G0-Scratch：无预训练；G0-Stage1：仅跨本体预训练；G0-Stage2-200h/400h：仅单一本体预训练；G0-Full：Stage1+Stage2-400h；π0：基线模型），关键结论：

G0-Full表现最优：平均任务进度得分最高，尤其在“拾取-放置”类任务（桌面整理、微波炉操作）中优势显著，说明跨本体预训练的通用知识与单一本体预训练的适配知识可互补；
单一本体预训练不可或缺：G0-Stage2（200h/400h）在语言跟随、动作一致性、全身控制（整理床铺）上表现优于G0-Stage1，而G0-Stage1甚至弱于部分无预训练模型，说明跨本体数据与目标机器人的本体差距过大会导致知识负迁移；
数据量正向相关：G0-Stage2-400h性能优于200h，验证数据集规模对模型精度的提升作用。

少样本迁移能力

用仅20条轨迹微调模型（少样本场景），发现：

G0-Stage2系列模型迁移效果最好：任务进度得分显著高于G0-Scratch与G0-Stage1，且动作更平滑稳定；
跨本体预训练无优势：G0-Stage1在少样本场景下与G0-Scratch差异极小，说明跨本体知识无法快速适配特定机器人，而单一本体预训练的“感知-动作”映射可高效迁移。

本体特定动作的适配性

以“整理床铺”（需全身协同，依赖特定机器人的躯干/底盘控制）为长程任务，分析单技能进度得分：

G0-Stage2显著提升本体控制能力：在“走向床铺”“躯干抬起抓被子”等技能上得分远超G0-Stage1与π0，甚至优于G0-Scratch；
跨本体预训练有害：G0-Stage1在底盘控制、躯干倾斜等技能上表现差于G0-Scratch，原因是OXE数据集的机器人本体与Galaxea R1 Lite差异大，导致学到的动作模式与目标机器人冲突。

G0-VLM的性能评估

对比G0-VLM与主流VLM（Gemini-2.5-pro、Qwen2.5-VL-7B/32B/72B）的“指令准确率”（生成的子任务是否可被VLA执行），关键结论：

G0-VLM准确率领先50%以上：在整理床铺上准确率达78.2%，桌面整理达83.3%，远超基线模型；
领域微调是关键：未微调的通用VLM（如Qwen2.5-VL-72B）在机器人任务中准确率低，说明通用视觉-语言理解需结合机器人任务数据微调，才能生成可执行的子任务指令。

参考

[1]Galaxea Open-World Dataset and G0Dual-System VLA Model

资讯配图