2026人形机器人全身控制全景:从 VLA 割裂到全域协同

具身智能之心 2026-04-09 11:00

2026人形机器人全身控制全景:从 VLA 割裂到全域协同图1


点击下方卡片,关注“具身智能之心”公众号


编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>

更多干货,欢迎加入国内首个具身智能全栈学习社区(戳我)这里包含所有你想要的。

2026 年的人形机器人赛道,早已不是 “能走会抓” 就能立足的时代。当实验室里的样机还在比拼单一步态精度、单一抓取成功率时,产业界已经清晰地指向了终极命题:全身移动-操控一体化(Loco-Manipulation)

想象这样一个场景:仓库里,人形机器人需要走到货架旁,下蹲抓取一箱 50kg 的货物,转身推到指定区域,弯腰将货物放入周转箱——这套连贯的动作,既要保证移动时的平衡,又要精准控制手部抓握力度,还要适配大空间下的路径规划,任何一个环节的割裂都会导致任务失败。而这,正是 2025-2026 年全球顶尖团队试图攻克的核心:让人形机器人从 “分段执行指令” 的机械体,变成 “全域协同完成任务” 的类人智能体。

本文以时间为脉络,拆解 LeVERB、SONIC、WholeBodyVLA、PhysiFlow、五大里程碑工作,不仅讲清每一项技术的突破,更还原背后的行业痛点、研发思路与领域演进逻辑,让你真正理解人形机器人全身控制的 “从 0 到 1”。

unsetunset黎明前的困局:全身 VLA 为何卡了多年?unsetunset

在五大里程碑出现之前,人形机器人的全身控制始终困在三个 “死结” 里,这也是所有研发团队的共同起点:

移动与操控的 “两张皮”

导航模块负责 “走”,操控模块负责 “抓”,两个系统各自为政。比如机器人要 “边走边抓”,导航只规划行走路径,完全不管手部动作;操控只计算抓握力矩,不顾及身体重心偏移。结果就是误差不断累积——走两步重心偏了,抓的时候身体晃了,长距离、多步骤的任务几乎必败。

数据成本的 “天花板”

全身协同动作依赖专业动捕设备、人工遥操作采集数据,一套完整的 “行走+抓取+放置” 数据,成本可能高达数万元,且数据集极度稀缺。小数据训练出的模型,要么泛化性差,要么只能完成单一简单任务,根本无法规模化。

频率与推理的 “错配”

高层视觉-语言推理(VLA)的速度只有 10Hz(每秒 10 次),而底层动力学控制需要至少 50Hz 的高频输出才能保证稳定——就像大脑每秒只发 10 次指令,身体却要每秒做出 50 次调整,动作必然卡顿、失衡,甚至摔倒。

这三个痛点,像三道枷锁,把人形机器人锁在 “实验室演示” 的阶段。直到 2025 年 6 月,伯克利的 LeVERB,第一次撬开了第一道锁。

unsetunset破局:五大里程碑的逐帧拆解unsetunset

第一程:分层架构定调(2025.06|LeVERB,UC Berkeley)

论文名称:LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

机构:UC Berkeley

在此之前,传统 VLA 的思路很 “直接”:把图像和语言指令输入模型,直接输出关节角度、力矩等底层控制指令。但这样做的问题显而易见:高层推理慢,直接输出底层指令会导致延迟;底层控制只看关节数据,完全没有 “语义理解”——比如指令是 “蹲下抓杯子”,模型只知道调整关节,却不懂 “蹲下” 是为了 “抓杯子”,泛化性极差。

伯克利团队的核心思路是:不要让高层语义直接对接底层控制,而是加一个 “中间层”

LeVERB 的 “双系统”:让大脑和身体各做擅长的事

LeVERB 被拆成两个独立但协同的系统,就像人的 “大脑思考” 和 “身体执行”:

  • 高层:LeVERB-VL(System 2,10Hz)——负责 “想清楚做什么”

这个系统基于 CVAE(条件变分自编码器)构建,输入是视觉场景(比如货架+箱子)和语言指令(“抓取货架下的箱子”),但它不输出任何关节指令,只输出一个 “潜动作向量(latent verb)”——比如 “下蹲+向前伸手+抓握” 的抽象表征。

更关键的是,这个系统的训练完全不用真机遥操作:靠合成渲染的虚拟场景+文本标注就能完成,大大降低了数据成本。

  • 底层:LeVERB-A(System 1,50Hz)——负责 “精准做出来”

这是一个轻量级的全身控制器(WBC),用 Transformer+强化学习(RL)训练,只接收高层的 “潜动作向量”,然后输出高频的力矩指令。它不依赖视觉输入,只靠机器人自身的本体感知(proprioception),比如关节角度、重心位置,保证 50Hz 的稳定输出。

关键创新:潜动作词汇表——语义与动力学的 “翻译官”

团队专门构建了一套 “潜动作词汇表”,比如 “前进”“侧移”“下蹲”“抓握” 等基础动作,每个动作对应唯一的向量表征。这就像给高层语义和底层控制搭建了 “翻译词典”,既解决了 10Hz 和 50Hz 的频率错位,又让底层控制能理解高层的 “意图”。

此外,LeVERB 还发布了首个 sim-to-real(仿真到真机)的全身 VLA 基准测试集 LeVERB-Bench,涵盖 10 大类 150+任务,让后续研究有了统一的对比标准。

落地效果:零样本迁移的首次突破

仅在仿真中训练的 LeVERB,直接部署到真机上:简单导航任务成功率 80%,全任务平均成功率 58.5%,是传统朴素 VLA 的 7.8 倍。

领域意义:

LeVERB 没有解决所有问题,但它定下了一个核心范式 ——“高层语义推理+底层高频控制” 的分层架构,后续所有全身 VLA 工作,都没有脱离这个框架。

第二程:底层能力规模化(2025.11|SONIC,NVIDIA)

项目链接:https://nvlabs.github.io/GEAR-SONIC/

LeVERB 解决了 “架构分层”,但底层控制的 “通用能力” 依然不足:此前的人形控制器都是 “小模型、小数据、单任务”,比如走的模型只能走,抓的模型只能抓,而且奖励函数需要人工设计,换个任务就要重新调参。

NVIDIA 的思路是:把 “运动跟踪” 做成通用基础模型,靠数据和算力的规模化,让底层控制具备通用能力

SONIC 的 “三尺度缩放”:用堆料实现质变

NVIDIA 的优势在于数据和算力,SONIC 的核心就是 “缩放”——把小模型、小数据放大到极致:

  • 数据缩放:收集 700 小时专业动捕数据,涵盖行走、跑跳、舞蹈、格斗等几乎所有人类运动姿态,总计 1 亿帧;
  • 模型缩放:模型参数从 1.2M(百万)提升到 42M,从专用小网络变成通用基础模型;
  • 算力缩放:投入 9000 GPU 小时,用 128 卡并行训练,直到模型完全收敛。

关键创新:统一令牌空间——打通所有输入形式

SONIC 设计了一套 “统一令牌空间”,能同时接收三种输入:机器人运动数据、人体 SMPL 模型数据、混合关键点数据。这意味着,VR 采集的动作、视频中的人类动作、文本指令、VLA 输出的潜动作,都能被 SONIC 理解和跟踪。

此外,SONIC 还内置了一个 5ms 级的实时运动规划器,不管是行走速度、转向方向,还是蹲、跪、爬等特殊姿态,都能实时响应。

落地效果:零样本泛化的 “天花板”

对于没见过的新动作,SONIC 依然能稳定跟踪,真机零失败率达到 100%——这意味着,只要给 SONIC 一个目标姿态,它就能让机器人精准复刻,无需针对单个动作微调。

领域意义:

SONIC 证明了一个核心结论:运动跟踪可以作为人形机器人的基础模型预训练任务。它就像给后续的 VLA 工作提供了一个 “稳定的底盘”,不管高层想让机器人做什么动作,底层都能精准、稳定地执行。

第三程:全域协同的里程碑(2025.12|WholeBodyVLA,复旦+港大 OpenDriveLab+智元机器人)

论文名称:WHOLEBODYVLA: TOWARDS UNIFIED LATENT VLA FOR WHOLE-BODY LOCO-MANIPULATION CONTROL 2025

论文链接:https://arxiv.org/pdf/2512.11047

项目链接:https://opendrivelab.com/WholeBodyVLA

LeVERB 定架构,SONIC 强底层,但此前所有工作都局限在 “小空间、轻负载、短时序”——比如在桌面抓个杯子,在实验室走几米。而真实场景需要的是 “大空间、重载、多步骤”:比如仓库里推 50kg 的推车,从货架到周转箱的长距离移动。

WholeBodyVLA 的目标,就是把人形机器人 “搬出实验室”,实现真正的移动-操控一体化。

核心突破:解决三大死穴的 “双杀技”

WholeBodyVLA 的研发团队直面行业最痛的三个问题:数据稀缺、执行错位、空间受限,给出了两套革命性技术:

统一潜动作学习(Unified Latent Learning):砍掉 75% 的遥操作数据

团队设计了两个分离训练的 “潜动作模型(LAM)”:

  • Manipulation LAM:专门学精细操作,数据来自真机双臂的实操记录;
  • Locomotion LAM:专门学移动姿态,数据来自低成本的头戴摄像头视频(无需专业动捕)。

训练时,先把无标签的视频转换成离散的潜动作,再用这些潜动作做监督训练 VLA 模型。这套方法直接让遥操作数据的依赖度降低 75%,任务成功率提升 38.7%。

LMO-RL 专用控制器:为 “操控” 而优化的移动策略

传统控制器都是 “速度追踪” 思路——只保证机器人按指定速度走,但不管手部操控的需求。WholeBodyVLA 抛弃了这种思路,设计了 LMO-RL 控制器:

  • 用 “前 / 侧 / 转 / 蹲” 等离散指令作为接口,让移动完全服务于操控;
  • 分两阶段课程学习:先练 “稳定”(比如推重载不摔倒),再练 “精准”(比如下蹲抓物不偏移);
  • 最终实现转向偏差减少 73%,下蹲晃动减少 40%,能稳定推行 50kg 以上的重载。

真机里程碑:三个 “行业首次”

在智元机器人 AgiBot X2 上,WholeBodyVLA 完成了三个此前从未实现的任务:

装袋:抓取物品→侧移调整位置→下蹲放置入袋;

装箱:下蹲抓取箱子→转身调整方向→推车到指定位置放置;

重载推行:推着 50kg+的推车稳定前进,全程不晃、不倒。

这些任务的平均成功率达到 78%,比当时的基线模型高出 21.3%。

领域意义:

WholeBodyVLA 直接定义了 “人形全身 VLA 的最终形态”:统一潜学习+专用底层控制+大空间端到端。它证明了人形机器人可以在真实场景中完成复杂、重载、长时序的任务,不再是实验室里的 “花瓶”。

第四程:高频稳定的终极解(2026.03|PhysiFlow,上海交通大学)

标题:PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

作者单位:上海交通大学自动化系

URL:https://arxiv.org/pdf/2603.05410v1

WholeBodyVLA 解决了 “做得到”,但还没解决 “做得稳、做得快”:大模型 VLA 推理慢,依然会导致动作卡顿;小模型虽然快,但物理稳定性差,复杂场景下容易失衡。

上海交大团队的思路很巧妙:模仿人类大脑的分工机制,让不同 “脑区” 负责不同频率的任务

三脑仿生架构:10Hz 思考+50Hz 规划+1000Hz 执行

PhysiFlow 把控制器设计成三个 “脑区”,对应不同的频率需求:

  • 新皮质脑(Neocortical,10Hz):负责 “理解意图”。基于 SigLIP+CVAE,输入图像和文本指令,输出 256 维的语义-运动意图向量——就像人类的大脑皮层,负责高级认知;
  • 基底神经节脑(Basal Ganglionic,50Hz):负责 “生成动作”。用流匹配(Flow Matching)算法替代传统的自回归生成,直接生成 50Hz 的动作块,推理延迟仅 18.65ms,速度比自回归模型提升 126 倍——就像人类的基底神经节,负责动作规划;
  • 小脑脑(Cerebellar,1000Hz):负责 “精准执行”。1000Hz 的 PD 跟踪控制器,用强化学习+师生学习训练,保证动作完全符合物理规律,不晃、不倒——就像人类的小脑,负责运动协调。

关键创新:流匹配+联合微调

流匹配算法的核心优势是 “非自回归”:不用一步步生成动作,而是直接生成完整的动作序列,速度极快;同时,团队还让动作生成模块和跟踪控制器联合微调,让生成的动作天然符合机器人的动力学特性,不用后期修正。

落地效果:复杂任务成功率 74.9%

在复杂的全身协同任务中,PhysiFlow 的成功率达到 74.9%,比 LeVERB 高出 9.9%——关键是,这个成功率是在 “实时、稳定” 的前提下实现的,没有卡顿、没有失衡,完全适配家庭、仓库等动态真实场景。

领域意义:

PhysiFlow 把 “实时性、稳定性、泛化性” 三个维度同时拉满,解决了全身 VLA 最后一个核心痛点:“做得快又做得稳”。

第五程:数据效率的革命(2026.03|/Psi0,南加州大学 PSI Lab)

论文标题: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 2026

论文链接:https://arxiv.org/abs/2603.12263

项目主页:https://psi-lab.ai/Psi0

机构:南加州大学 PSI Lab

前面的工作,要么依赖大量仿真数据,要么依赖动捕数据,要么依赖真机遥操作数据——本质上还是 “数据越多越好”。但对于产业界来说,真机数据的采集成本依然是巨大的门槛:没有 NVIDIA 那样的算力,没有伯克利那样的仿真资源,中小团队根本玩不起。

的核心目标是:用最少的数据,训练出最强的全身 VLA 模型

三阶段训练范式:避开人机动作的 “分布冲突”

人机的身体结构差异大,直接混合人类视频和机器人数据训练,效果会很差——这是此前数据效率低的核心原因。设计了分阶段训练,彻底避开这个问题:

  • Stage1:人类视频预训练(无机器人数据)

用 829 小时的人类第一人称视频(比如人推推车、抓箱子的视角),训练视觉-语言模型(VLM),让模型学习 “任务先验”——比如 “推重物时要弯腰、重心前移”,这个阶段只预测单步动作,不涉及机器人关节;

  • Stage2:人形数据后训练(冻结 VLM)

把 VLM 的参数冻结,只训练一个 “MM-DiT 动作专家” 模块,让模型学习把人类的动作先验,转换成机器人关节空间的动力学指令;

  • Stage3:少量遥操作微调(每任务仅 80 条轨迹)

针对具体任务,只用 80 条真机遥操作轨迹微调,快速适配长时序复杂任务。

关键创新:MM-DiT 动作头+实时刻块(RTC)

  • MM-DiT 动作头:把视觉-语言特征和动作特征做联合注意力,比传统的 DiT 模型效果提升显著;
  • 实时刻块(RTC):把推理出的动作分成小块,实时调整,解决了推理延迟导致的动作抖动问题。

落地效果:1/10 数据,40%+ 提升

仅用传统 VLA 1/10 的数据量,任务成功率就高出 40% 以上——这意味着,中小团队不用再依赖昂贵的动捕设备和大规模真机数据,仅靠人类视频+少量真机微调,就能训练出可用的模型。

领域意义:

完成了数据效率的革命,证明 “高质量人类视频+少量真机数据” 是训练通用人形模型的可行路径,大幅降低了全身 VLA 的落地门槛。

unsetunset全局视角:四大跃迁看懂领域演进unsetunset

把五大里程碑串联起来,人形机器人全身控制的演进路径清晰可见,核心是四次关键跃迁:

架构跃迁:从 “端到端黑盒” 到 “分层解耦标准范式”

LeVERB 之前,大家都在试 “端到端”——把图像+语言直接映射到关节指令,结果是慢、不稳、泛化差。LeVERB 之后,“高层语义(10Hz)+ 底层高频控制(50Hz+)” 成为标配,各司其职,既保证理解意图,又保证稳定执行。

数据跃迁:从 “昂贵遥操作” 到 “廉价视频+少量真机”

从 LeVERB 的合成数据,到 WholeBodyVLA 的无标签视频,再到 的人类视频预训练,数据来源从 “专业、昂贵、稀缺” 变成 “通用、廉价、易得”,数据成本下降了一个量级。

控制跃迁:从 “速度追踪” 到 “移动-操控专用策略”

传统控制只追求 “走得快、走得稳”,而 LMO-RL(WholeBodyVLA)、小脑跟踪(PhysiFlow)让控制的目标变成 “为操控而走”——移动的速度、方向、姿态,都服务于手部的操控任务。

空间跃迁:从 “桌面小空间” 到 “全域大空间”

LeVERB、SONIC 还局限在实验室小空间,WholeBodyVLA 直接突破到大空间、重载场景,标志着人形机器人正式走出实验室,向真实落地场景迈进。

unsetunset结语:从 “机器人” 到 “类人智能体” 的跨越unsetunset

2025-2026 这短短一年,不是简单的技术迭代,而是人形机器人全身控制的 “范式革命”:

  • LeVERB 搭好了骨架(分层架构);
  • SONIC 筑牢了底盘(通用运动基础);
  • WholeBodyVLA 画出了蓝图(全域协同形态);
  • PhysiFlow 打通了血脉(高频稳定执行);
  • 降低了门槛(数据效率革命)。

这五大工作,共同把人形机器人从 “执行预设指令的机器”,推向了 “理解意图、全域协同的类人智能体”。

未来 3 年,通用人形机器人的核心方向已经明确:统一潜空间+分层高频控制+视频物理先验+大空间全身协同。而这五大里程碑,正是这场革命的开篇——它们不仅解决了当下的技术痛点,更给行业指明了清晰的路径:人形机器人的未来,不在单技能的内卷,而在全身协同的 “类人化”。

2026人形机器人全身控制全景:从 VLA 割裂到全域协同图2
2026人形机器人全身控制全景:从 VLA 割裂到全域协同图3

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
做人形机器人,不是拼人头:马斯克与王兴兴正在改写规则
车企做飞行汽车与机器人,还是要慎重
机器人累计部署超10万台,擎朗智能在CCE亮出清洁技术升级与通用人形的协作路径
中国具身模型狂揽全球第一!机器人的人类数据时代来了
无人机+机器人“造心者”IPO,开盘涨265%、市值360亿
基于 NVIDIA Isaac Sim™ 的车企产线巡检机器人仿真测试实践
00后交大博士做仿生飞行机器人,获启高、奇绩创坛、交大母基金等投资|早起看早期
星海图斩获近20亿元B+轮融资,估值领跑中国具身赛道;知行机器人完成近亿元B+及B++轮融资|36氪出海·要闻回顾
宇树科技新专利以单雷达实现全景感知,持续夯实机器人技术底座
法拉第未来2025年净资产转正,双轨战略推进机器人与汽车交付
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号