星海图(Galaxea)于2025年8月正式开源的星海图开放世界数据集(Galaxea Open-World Dataset) 一经发布,便在全球具身智能领域引发广泛讨论。
开源仅两个月,数据集下载量突破 40 万次,成为全球最受关注、下载量最高的具身智能真机数据集之一。


来自 Physical Intelligence、Bitrobot、Hugging Face 等国际前沿团队的研究者,也在社交媒体上公开点赞推荐,称该数据集为“极具价值的社区资源”。世界各地的机器人研究者、实验室与应用企业,正基于星海图开放世界数据集进行系统验证、模型训练等更多研究。

以真实世界数据推动具身智能落地
长期以来,业界主流的大模型预训练多依赖互联网数据或仿真环境数据。然而,互联网数据虽然规模庞大,却质量不均;仿真数据则受限于虚拟环境的简化假设,难以真实还原物理交互与环境复杂性,影响模型在真实世界中的迁移表现。
为破解这一困境,星海图选择直面真实世界的复杂性,重构数据采集范式,使得星海图开放世界数据集(Galaxea Open-World Dataset)具备以下特征:
真实性:不同于实验室仿真或搭建空间,星海图坚持在真实世界场景中完成采集。数据覆盖住宅、餐饮、零售、办公室等50多个真实场景,几乎囊括了现实空间中人机交互的主要形态。
丰富度:整个数据集累计时长500小时,规模超过 10TB,包含10万条以上真实操作数据、150类任务类型、1600+操作对象与58项操作技能,并同步提供多模态传感信息与自然语言标注,确保数据的真实性、复杂性与通用性。
精细度:数据集提供细粒度的子任务级注释,实现精确的多模态对齐;所有片段严格质检,剔除无效数据,从源头确保数据可信度。

在多样化场景中采集数据
我们希望通过开源这一数据集,让全球研究者都能基于真实世界获取的数据,验证具身智能模型在现实环境中的感知、规划与执行能力,真正推动具身智能从实验室迈向产业化。
开放大规模高质量真机数据,为全球开发者赋能
令我们惊喜的是,上线仅两个月,星海图开放世界数据集(Galaxea Open-World Dataset)的下载量就已突破 40 万次。这一热度表明,全球开发者正迫切需要可直接使用的高质量数据资源。
而构建大规模、可靠的数据体系仍存在较高难度和壁垒。Galaxea Open-World Dataset 的高数据质量,主要来自硬件、场景与工程化体系三要素的支撑。
硬件层面,星海图数据集的采集设备以自研机器人R1 Lite为主,该机器具备 23 自由度,支持从精细抓取到全身协调的复杂操作。球形腕关节与并联抓手确保多种重量与尺寸物体的操控能力,而高精度传感器系统保证了动作数据的高保真。

场景层面,数据集覆盖酒店、餐厅、超市、办公室等真实动态环境,反映机器人在复杂场景下的感知与操作能力,帮助模型拥有更强的现实泛化能力。
工程化体系层面,为保证数据质量,星海图构建了一套智能化数据管线(EDP),实现从采集、质检、标注到审核的全流程管理,并支持模型评测与部署。专业化采集工艺确保机器人在不同场景下动作标准化,减少人为与环境偏差。
我们相信,数据的共享与协作,能够加速整个行业的技术进步。未来,星海图将持续扩展数据集的场景覆盖与任务类型,构建多维度的评测体系,助力开发者更高效地进行模型训练与验证。
星海图开放世界数据集(Galaxea Open-World Dataset) 的发布,仅仅是这场长期旅程的开始。我们诚挚邀请全球研究者与开发者基于这一数据集展开更多创新研究,共同拓展具身智能的研究与应用边界。
点击链接获取数据集
🌍Hugging Face:
https://huggingface.co/datasets/OpenGalaxea/Galaxea-Open-World-Dataset
🪄Modelscope:
https://www.modelscope.cn/datasets/Galaxea/Galaxea-Open-World-Dataset

本文只做学术分享,如有侵权,联系删文