具身智能开源周：上海AI实验室加速助力机器人训练及应用

作者丨上海人工智能实验室

点击下方卡片，关注“具身智能之心”公众号

>>点击进入→具身‍智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

7月，上海人工智能实验室（上海AI实验室）开源了『书生』具身全栈引擎Intern-Robotics，通过仿真、数据、训测三大引擎，推动具身大脑从 “碎片化开发” 迈向 “全栈化量产”时代。截止目前，相关模型和数据集下载量超14万次。

围绕具身智能领域的实际发展需求，上海AI实验室基于Intern-Robotics，进一步推出一系列技术新进展，涵盖导航、操作、人形机器人运动大模型，以及数据集和评测等主要方向。9月14日起，上述新进展将集中开源，助力机器人行业破解从训练到应用场景落地核心难题。

期间，上海AI实验室将联合多个行业专业机构，在9月17日、19日推出两场专题直播，帮助大家更好地理解并熟练运用相关技术。

官网：https://internrobotics.shlab.org.cn
GitHub: https://github.com/InternRobotics
Hugging Face: https://huggingface.co/InternRobotics

导航大模型

端到端双系统导航大模型InternVLA N1

——长程空间推理与敏捷执行的有机融合

基于Intern-Robotics构建，实现了高层远距离目标空间推理规划和底层敏捷执行的双系统解耦。得益于纯合成数据驱动异步架构的两阶段课程训练，InternVLA N1不仅保留了更强的语义理解和长程指令跟随能力，还可与高频动态避障策略有机融合。性能表现上，InternVLA N1在6个主流基准测试中的得分达到国际领先水平；实际应用中，该模型可以60Hz的连续推理效率实现跨场景、跨本体的零样本泛化。

开源日期：2025年9月15日

模型链接：https://huggingface.co/InternRobotics/InternVLA-N1

数据链接：https://huggingface.co/datasets/InternRobotics/InternData-N1

代码链接：https://github.com/InternRobotics/InternNav

项目主页：https://internrobotics.github.io/internvla-n1.github.io/

操作大模型

本次开源的操作大模型构建了覆盖“思考-行动-自主学习”的完整闭环：具身操作“大脑”InternVLA M1负责高阶的空间推理与任务规划，具身操作“小脑”InternVLA A1负责敏捷精准的运动执行，具身操作强化学习VLAC则通过真实数据持续优化模型性能。

具身操作“大脑”InternVLA M1

——实现“感知–规划–行动”闭环，让机器人“看到”且“做到”

面向指令跟随的双系统操作大模型，采用两阶段训练策略：先通过空间感知预训练，增强模型的空间推理与规划能力；再以隐式空间推理方式实现高效的动作后训练，仅需 “空间规划提示” 即实现高效训练，大幅降低成本。性能上，该模型在SimplerEnv等公开操作基准达国际领先水平；依托自研仿真平台InternData-M1完成大规模预训练后，在真机复杂场景及长程任务中，InternVLA-M1的指令跟随与未见物体泛化能力显著优于GR00t、π0，为通用机器人真实场景应用筑牢技术基础。

开源日期：2025年9月17日

数据链接：https://huggingface.co/datasets/InternRobotics/InternData-M1

具身操作“小脑”InternVLA A1

——助力实现高动态场景下的多机器人协作

理解、想象、执行一体化具身操作大模型，基于实验室自研的虚实混合操作数据集InternData A1、上海国地中心实训场数据及互联网多源异构数据联合训练而成。真机评测数据显示，InternVLA A1性能显著优于π0及GR00t n1.5，并表现出高动态场景下的强适应能力。目前，该模型已适配方舟无限、国地青龙人形机器人、智元Genie、松灵、Franka等多款机器人本体，可支持用户快速适配新场景、新任务。

开源日期：2025年9月18日

数据链接：https://huggingface.co/datasets/InternRobotics/InternData-A1

具身操作强化学习：通用奖励大模型VLAC

——提升使机器人在真实世界的强化学习效率

执行、评价一体化具身通用奖励大模型，为机器人在真实世界强化学习提供连续、可信的监督信号。该模型以InternVL多模态大模型为基座，融合互联网视频数据和机器人操作数据，为强化学习提供过程奖励和完成情况估计。VLAC能有效区分正常推进与异常/停滞行为，同时支持通过in-context learning实现小样本快速泛化。围绕该模型搭建VLA强化学习框架，可助力机器人在真实世界交互中快速适应新场景，并支持人机协作模式，提升训练灵活性与学习效率。

开源日期：2025年9月16日

项目主页：https://vlac.intern-ai.org.cn

人形机器人运动大模型

跨本体、跨技能人形机器人工具链InternHumanoid

——硬件本体+运动技能双重泛化突破

专为突破人形机器人复杂运动控制技术瓶颈研发的全身运动控制工具链，核心特性为跨本体、跨技能。依托工具链，用户可构建统一运动控制策略，覆盖不同型号人形机器人的多元运动场景，从日常基础动作（跑、跳、走、蹲），到舞蹈、格斗、体育等复杂动作，对共计百余种运动类型均能实现精准动作追踪，可为多机型、多场景下的人形机器人运动控制提供标准化解决方案。另外，大规模视频动作捕捉数据集InternData MotionMilions与当前能力最强的文本-人体动作基础生成模型InternHumanoid Scamo7B也将同步开源，进一步丰富人形机器人技能学习的数据范围，提升多模态控制的可能性。

开源日期：2025年9月19日

数据链接：https://huggingface.co/datasets/InternRobotics/MotionMillion

Github链接：

https://github.com/VankouF/MotionMillion-Codes

代码链接：https://github.com/InternRobotics/InternHumanoid

数据集与评测

大规模、可交互的室内场景数据集InternScenes

——为具身智能和空间智能提供坚实的数据基础

共包含约4万个室内场景和196万个三维物体数据，数据总量超现有同类开源数据集10倍，覆盖15个常见场景类别和288个常见物体类别，数据来源于真实扫描、程序化生成和设计师创作等。平均每个室内场景的物体数量达41.5个，超同类开源数据集的2倍；每个场景中约20%的物体可交互，包括微波炉、冰箱、抽屉、椅子等，为场景重建与生成、空间智能和具身智能等方面的研究提供坚实的数据基础。

开源日期：2025年9月14日

数据链接：https://huggingface.co/datasets/InternRobotics/InternScenes

代码链接：https://github.com/InternRobotics/InternScenes

项目主页：https://marjordcpz.github.io/InternScenes.github.io/

大规模时空数据集OmniWorld

——融合多模态、横跨多任务，赋能长时序世界建模

结合大规模自采集合成数据与多源异构数据，具备庞大且多样的数据资源，旨在推动世界模型发展，让机器更全面地理解物理世界。目前，数据集中视频片段总计超61万个，总帧数超300M，额外模态标注超557M 。OmniWorld不仅为3D几何预测和相机可控视频生成等核心任务提供了全新的、更具挑战性的基准，也为现有SOTA模型带来了显著的性能提升。模型基于OmniWorld进行微调后，在重建、渲染等多项任务上取得显著性能提升，验证了OmniWorld有效赋能世界模型的价值。

开源日期：2025年9月16日

高保真场景中的多模态导航和操作评测基座

——为具身智能社区提供公平、规模化、低门槛的评测工具和服务

赋能导航和操作两类具身模型在高保真仿真环境中的规模化公平评测，面向社区提供开源的评测工具、基线方法、数据集和评测服务。导航评测聚焦物理真实环境下的视觉语言导航任务，相较于已有的非物理评测环境进一步缩小与真实世界的虚实差异，提供更加可信的仿真评测结果。操作评测专注于长时序带推理的指令遵循操作任务，任务包含多样化的指令和操作物体，向VLA模型的任务规划、推理能力和操作物体的泛化能力提出了新的挑战。以该评测内容为基础的IROS 2025挑战赛现已上线，相关评测服务长期向社区开放，助力具身智能算法迭代。

挑战赛主页：https://internrobotics.shlab.org.cn/challenge/2025/

导航评测：https://eval.ai/web/challenges/challenge-page/2627/overview

操作评测：https://eval.ai/

web/challenges/challenge-page/2626/overview

资讯配图

本文只做学术分享，如有侵权，联系删文