波士顿动力公司Large Behavior Models 与 Atlas 的新进展

Xbot具身知识库 2025-08-21 17:32

“只要你能演示，它就能学会。”

If you can demonstrate it, the robot can learn it.

Atlas 折叠了一条来自 Spot 机器人的腿。

资讯配图

要实现实用的人形机器人，需要掌握一系列复杂技能：能够操控多种对象（硬/软、重/轻、刚性/可动、大/小），同时需要全身协调运动以实现重构自身与环境、避障、保持平衡，并能应对突发状况。我们相信，构建AI 通用型机器人是实现这些能力并推动人形机器人大规模自动化的最可行路径。

我们非常高兴地分享我们在为 Atlas® 开发大型行为模型（LBM, Large Behavior Models）方面的最新进展。这项工作由 Toyota Research Institute（TRI）与 Boston Dynamics 的 AI 研究团队联合进行，目标是构建端到端的语言条件策略，使 Atlas 能完成长时序操控任务。

这些策略充分利用了人形结构的全部潜力，包括迈步、精确定位双脚、下蹲、重心转移以及避免自碰撞，我们发现这些对于解决现实中的移动操控任务至关重要。

策略开发流程

我们的方法分为以下四个主要阶段：

1. 数据采集：通过实物机器人和仿真平台进行遥操作采集行为数据。

2. 数据处理与注释：清洗、注释并构建可用于训练的数据集。

3. 模型训练：在多个任务上用所有数据训练一个神经网络策略。

4. 策略评估：使用任务测试套件对策略进行评估。

资讯配图

这一流程是持续且迭代的，第4步的结果会影响后续的数据采集决策以及网络结构与推理方式的优化方向。

资讯配图

我们的策略每秒 30 次（30Hz）接收图像、机器人本体感知（proprioception）和语言提示，并控制整个 Atlas 机器人动作。我们采用Diffusion Transformer结合流匹配（flow matching）损失函数来训练该模型。

三大设计原则

1. 最大化任务覆盖面：
为覆盖从手指级精细操作到全身动作、行走等任务，我们开发了最先进的遥操作系统，结合 Atlas 的模型预测控制器（MPC）与自定义 VR 接口，实现高质量且响应迅速的全身动作采集。

2. 训练通用策略：
多任务、语言条件策略能跨多个任务和机器人平台迁移和泛化。我们整合了 Atlas 全身、Atlas 上半身 MTS 平台、以及 TRI 的 Ramen 数据，用统一的策略学习机制完成不同任务，降低部署难度、加速共享与提升泛化能力。

3. 打造支持快速迭代的基础设施：
通过结合仿真、硬件测试与生产级 ML 基础设施，我们能快速验证并迭代策略设计，实现持续的机器人性能提升。

长时序端到端操控任务示范：Spot Workshop

该任务涵盖协调运动（迈步、开腿站立、下蹲）与精巧操作（抓取、换手、组装、滑动等），分为三个子任务：

1. 从手推车上抓取 Spot 的腿部、折叠后放到货架上

2. 从车上抓取面板，拉开底层抽屉并放入面板

3. 清空推车后，转向蓝色储物箱，将其中零部件放入倾倒车内

该视频展示了一个单一语言条件策略从头到尾完成所有操作。三个子任务通过语言提示触发。

从失败中恢复的能力

我们特别训练了策略在物品掉落或盖子关闭等异常情况下的自我恢复能力。初期版本不具备这些功能，但通过展示相关失败示例并重新训练后，新策略无需修改算法或工程即可反应智能。这表明策略能通过感知状态自主学习恢复行为，大大降低了专业开发门槛与工作量。

更多复杂操控能力

我们研究了数十种任务，如：

绑绳子
翻转高脚凳
展开并铺好桌布
操作22磅（约10kg）车胎

这类涉及软体、弹性或复杂操作序列的任务传统编程难以实现，但使用 LBM，只要能演示，就能学习。

策略推理速度调整

我们可以在推理阶段动态调整执行速度，而无需重新训练模型。因为策略输出的是一段动作轨迹及其执行时间，我们可以修改时间参数实现1x、2x、3x加速。

实验发现通常能在不影响性能的前提下加速1.5x-2x，甚至超过人类遥操作的上限。

硬件平台与系统基础设施

Atlas 与 MTS 平台

Atlas：50 个自由度（DoF），包括双手7DoF灵巧抓手、头部 HDR 双目立体相机。
Atlas MTS：为上半身操作任务设计，拥有与 Atlas 一致的结构与控制接口，有助于跨平台策略学习。

Teleoperation：高质量遥操作采集系统

基于 Boston Dynamics 的 MPC 系统。
利用 VR 头显 + 身体追踪装置（手、脚、胸）+ 头部摄像头立体视图回放，实现沉浸式、精准控制。
控制与策略共享同一底层接口，便于直接复用模型架构。

策略结构与训练方式

架构：基于 Diffusion Transformer 的 4.5 亿参数模型。
输入：图像（30Hz）、本体感知、语言提示。
输出：48 步动作轨迹（1.6 秒），每次执行其中 24 步（0.8 秒）。
行为空间：双手、颈部、躯干、双脚的位姿与关节控制。
数据来源统一，策略可在 Atlas 与 Atlas MTS 上无缝部署。

策略训练高度依赖遥操作高质量演示，结合质量保障工具进行数据筛选与反馈优化。

仿真系统

高保真仿真环境同步硬件控制接口。
用于加速遥操作系统迭代、运行测试、构建数据集与进行策略评估。
仿真数据可作为真实数据的补充进行联合训练。

结语与后续计划

我们展示了可同时执行移动与操控的语言条件多任务策略，这些策略能在 Atlas 上完成长时序任务，且全部基于数据驱动方法，只需演示即可学习。

接下来，我们将重点推进：

数据飞轮：增加数据量、质量、任务多样性与复杂度。
算法探索：如力控与触觉反馈、快速动态操控。
跨模态数据：引入人类第一视角数据、多种机器人平台数据。
RL 强化 VLA：提升策略的泛化能力与推理能力。
部署更强大的 VLM/VLA 架构，实现更复杂任务与推理。

资讯配图

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

AR 动力

more

手搓一个UART串口，难度有多大

strongerHuang 5天前

手搓一个UART串口，难度有多大

厉害了！国产ARM+FPGA SoC突围，看看有多强悍！

strongerHuang 3天前

厉害了！国产ARM+FPGA SoC突围，看看有多强悍！

【Open Car】虽然不好，但也还行

电脑吧评测室 3天前

【Open Car】虽然不好，但也还行

工业自动化软件传奇——Wonderware的前世今生

控制工程中文版 3天前

工业自动化软件传奇——Wonderware的前世今生

一年成爆款，狂斩 49.1k Star、200 万下载：Cline 不是开源 Cursor，却更胜一筹？！

AI前线 1天前

一年成爆款，狂斩 49.1k Star、200 万下载：Cline 不是开源 Cursor，却更胜一筹？！

Genspark把程序员干懵了：不写代码10分钟抬上一个系统，L4级AI Agent真会抢饭碗！

智东西AI前瞻 6天前

Genspark把程序员干懵了：不写代码10分钟抬上一个系统，L4级AI Agent真会抢饭碗！

为了搞芯片，Arm挖了一个老法师

半导体行业观察 2天前

为了搞芯片，Arm挖了一个老法师

【“垃圾”Car】电子“垃圾”专题

电脑吧评测室 5天前

【“垃圾”Car】电子“垃圾”专题

Tape-out生死时速：华大九天Argus重塑大规模SoC芯片物理验证效率！

半导体行业观察 1周前

Tape-out生死时速：华大九天Argus重塑大规模SoC芯片物理验证效率！

【Open Car】不包含任何硬件

电脑吧评测室 1周前

【Open Car】不包含任何硬件

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号