
刷屏的 Atlas 升级了……
曾凭借惊艳 “舞蹈” 与 “跑酷” 视频火爆全球的波士顿动力人形机器人 Atlas,近日再次迎来了根本性的范式转变——
“它告别了依赖工程师精心编排动作的模式,迈入了由大型行为模型(Large Behavior Models, LBMs)驱动的自主决策新纪元。”
波士顿动力这次展示的成果,其背后结合了丰田研究院(TRI)近期发布的LBMs,该工作可以说是机器人研究领域的一项里程碑式的基准研究,因为TRI基于高度谨度的统计学,证实了LBMs这条路不仅是可行的,而且是通往未来通用机器人的正确道路。
Atlas的进化过程
从"剧本"到自主决策
基于模板和感知的动作执行
波士顿动力早期发布的视频中(如机器人跑酷、跳舞等),Atlas执行的每一个动作确实源自提前通过轨迹优化创建的「模板」,这些模板来自工程师离线构建的行为数据库。
例如机器人的翻越障碍行为,工程师会通过离线轨迹优化工具,交互式探索机器人的能力极限,在设计阶段就捕捉关键物理约束(如驱动关节的运动限制)—— 比如肢体如何协调发力、如何调整姿态以完成翻越,通过不断优化这些细节,将最终轨迹作为模板加入行为库,以此扩展机器人的运动能力。

在演示阶段:
Atlas首先通过感知系统识别环境:利用ToF相机生成环境点云,通过多平面分割算法提取障碍物表面信息(如木桩的矩形表面),并结合预先提供的高层地图(含障碍模板和动作标注)确定目标位置;
随后,机器人从行为库中选择与感知目标最匹配的动作模板,规划出翻越障碍的轨迹;
最后,通过模型预测控制(MPC)实时调整发力、姿态和动作时机,追踪轨迹并应对环境差异,最终完成具体动作。
这种模式并非简单的 “剧本”,而是感知、模板库与实时控制的结合:
模板提供基础动作框架,感知填补环境细节,MPC则保障动作的适应性与连贯性,让机器人既能遵循预设逻辑,又能在一定范围内灵活调整。
结合多维参数,突破动作赋能
在波士顿动力早期的跑酷和舞蹈演示中,Atlas采用的是极为简化的机器人模型:在规划落脚位置与地面推力时,仅使用机器人的「总重心」和「惯性」这两个核心参数。
而随着技术的演进,在最新的操控任务中,波士顿动力团队对模型进行了大幅扩展——
不仅包含机器人每个关节的运动数据、每个连杆的动量特性,还加入了机器人对所搬运或投掷物体施加的力的分析。
就是这一升级,让Atlas突破了早期简单动作的限制,能够完成更具挑战性的复杂任务:
例如在搬运重物时精准维持身体平衡,在空中跳跃的瞬间同步完成物体投掷,或是通过精确收腿动作完美落地,以及流畅执行那些令人惊叹的 “酷炫技巧”。
LBMs赋能Atlas突破预设"脚本"局限
如今,LBMs让Atlas能够理解指令并自主完成持续时间长、步骤复杂的操作任务,不再依赖于事先构建的"脚本",这对Altas来说可以说是一次革命性的突破。
构建LBMs需要经历四个关键步骤:
(1)数据收集:通过遥控操作在真实机器人硬件和仿真环境中收集具身行为数据;
(2)数据清洗:对这些数据进行处理、标注和筛选,使其适配机器学习流程;
(3)模型训练:用收集的全部数据来训练一个统一的神经网络策略模型;
(4)模型评估:使用一套专门的测试任务评估该策略模型的表现,评估结果用于指导后续的数据收集与模型优化,形成持续改进的闭环。
在执行上述4个步骤的过程中,整个团队遵循以下三大目标原则,形成了一套完整的平台:
目标一:追求最广泛的任务覆盖。
通过结合Atlas强大的MPC和定制VR交互界面,打造顶尖遥操作系统来丰富训练数据的多样性;
目标三:建设支持快速迭代的基础设施。
搭建融合仿真、硬件测试和生产级机器学习平台的环境,确保高效实验与科学评估,稳步提升机器人在真实世界中的表现。

解决的核心问题
从实验室演示走向真实应用
回顾波士顿动力早期发布的内容,Atlas的动作多依赖预设模板执行——无论是跑酷跳跃还是舞蹈协调,本质上都是基于离线规划的固定任务流程。
而在Atlas上集成LBMs后,突破了这一局限,让Atlas在“从实验室演示走向真实场景”的道路上,实现了关键跨越。
解决单任务模型泛化能力弱的问题
LBMs通过多任务预训练解决单任务模型泛化能力弱的问题:
其训练数据覆盖1700小时、500+多样化任务,能学习通用的视觉-运动表征。
实验显示,在真实世界“工位分布偏移”(Station Distribution Shift)和“物体分布偏移”(Object-Centric Distribution Shift)场景中:
微调后的LBMs成功率比单任务模型高30%-50%;即使在模拟环境中加入光照变化、随机干扰物等变量,LBMs的鲁棒性仍显著优于传统模型。
解决复杂任务数据需求过高的问题
LBMs通过预训练-微调范式大幅提升数据效率:
预训练阶段积累的通用能力,让微调新任务时仅需少量专用数据,在“SetBreakfastTable”真实任务中:
LBMs用15%的任务数据就能超越单任务模型全量数据的性能;在模拟场景中,要达到与单任务模型相当的效果,LBMs仅需30%以下的数据量。
解决长周期、多步骤操作的执行难题
LBMs通过端到端语言驱动与长时序动作规划解决长周期、多步骤操作执行效率问题:
在Atlas上,采用4.5亿参数的扩散Transformer架构,能基于语言指令规划在1.6秒内的48个动作块,并在策略推理时执行24个动作(以1倍速度运行,时间为0.8秒)。
下面展示了Atlas的1个长周期任务执行效果,这个长周期任务是由几个子任务组成的:
任务1:机器人抓起推车上的Spot腿,然后将它们折叠起来,最后放到旁边的架子上:
任务2:机器人再抓起推车上的面板,然后拉出架子底部的箱子,最后把面板放进去:
任务3:整理完推车上的东西,机器人转向蓝色的箱子,并打开箱子的盖子:(有趣的是,工作人员一直在旁边关上箱子的盖子,但是机器人依然会再次打开盖子)
● 最后,机器人将箱子里面的部件转移到旁边的收纳箱中:

总结与展望
波士顿动力与TRI的这项工作表明:
通过数据驱动的方法可以训练出多任务语言条件策略,该策略能够有效控制Atlas机器人完成移动和操控的长时序任务,且这种方法具备良好的通用性,几乎可应用于任何通过遥操作演示的下游任务。
但仍有大量工作亟待推进——基于已建立的任务基准与性能标准,后续将重点发力于数据规模扩展;
同时积极探索新的算法思路,例如:机器人性能提升(结合触觉反馈的夹爪力控制、快速动态操控)、多样化数据源整合(跨具身数据、以自我为中心的人类数据等)、改进VLA的强化学习效果,以及部署VLM与VLA架构……
助力 Atlas实现更复杂的长时序任务与开放式推理,进一步推动机器人技术向更高阶的智能应用迈进。
编辑|木木伞
审编|具身君
Ref:
1. Boston Dynamics: Large Behavior Models: Atlas Finds New Footing
2. Boston Dynamics: Picking Up Momentum
3. Boston Dynamics: Flipping the Script with Atlas
4. A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation
工作投稿|商务合作|转载:SL13126828869(微信号)
>>>现在成为星友,特享99元/年<<<

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇
商务合作扫码咨询
机器人、自动驾驶、无人机等研发硬件
关于我们:深蓝学院北京总部于2017年成立,2024年成立杭州分公司,2025年成立上海分公司。
学院课程涵盖人工智能、机器人、自动驾驶等各大领域,开设近100门线上课程。拥有多个实训基地助力教学与科研,多台科研平台硬件设备可供开展算法测试与验证。
服务专业用户数达11万+(人工智能全产业链垂直领域的高净值用户),硕博学历用户占比高达70%。已与多家头部机器人企业、头部高校建立深度合作,深度赋能教育 、企业端人才培养与匹配。
工作投稿|商务合作|转载:SL13126828869


点击❤收藏并推荐本文