2026人形机器人全身控制全景：从 VLA 割裂到全域协同

2026人形机器人全身控制全景：从 VLA 割裂到全域协同图1

点击下方卡片，关注“具身智能之心”公众号

编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

2026 年的人形机器人赛道，早已不是 “能走会抓” 就能立足的时代。当实验室里的样机还在比拼单一步态精度、单一抓取成功率时，产业界已经清晰地指向了终极命题：全身移动-操控一体化（Loco-Manipulation）。

想象这样一个场景：仓库里，人形机器人需要走到货架旁，下蹲抓取一箱 50kg 的货物，转身推到指定区域，弯腰将货物放入周转箱——这套连贯的动作，既要保证移动时的平衡，又要精准控制手部抓握力度，还要适配大空间下的路径规划，任何一个环节的割裂都会导致任务失败。而这，正是 2025-2026 年全球顶尖团队试图攻克的核心：让人形机器人从 “分段执行指令” 的机械体，变成 “全域协同完成任务” 的类人智能体。

本文以时间为脉络，拆解 LeVERB、SONIC、WholeBodyVLA、PhysiFlow、五大里程碑工作，不仅讲清每一项技术的突破，更还原背后的行业痛点、研发思路与领域演进逻辑，让你真正理解人形机器人全身控制的 “从 0 到 1”。

unsetunset黎明前的困局：全身 VLA 为何卡了多年？unsetunset

在五大里程碑出现之前，人形机器人的全身控制始终困在三个 “死结” 里，这也是所有研发团队的共同起点：

移动与操控的 “两张皮”

导航模块负责 “走”，操控模块负责 “抓”，两个系统各自为政。比如机器人要 “边走边抓”，导航只规划行走路径，完全不管手部动作；操控只计算抓握力矩，不顾及身体重心偏移。结果就是误差不断累积——走两步重心偏了，抓的时候身体晃了，长距离、多步骤的任务几乎必败。

数据成本的 “天花板”

全身协同动作依赖专业动捕设备、人工遥操作采集数据，一套完整的 “行走+抓取+放置” 数据，成本可能高达数万元，且数据集极度稀缺。小数据训练出的模型，要么泛化性差，要么只能完成单一简单任务，根本无法规模化。

频率与推理的 “错配”

高层视觉-语言推理（VLA）的速度只有 10Hz（每秒 10 次），而底层动力学控制需要至少 50Hz 的高频输出才能保证稳定——就像大脑每秒只发 10 次指令，身体却要每秒做出 50 次调整，动作必然卡顿、失衡，甚至摔倒。

这三个痛点，像三道枷锁，把人形机器人锁在 “实验室演示” 的阶段。直到 2025 年 6 月，伯克利的 LeVERB，第一次撬开了第一道锁。

unsetunset破局：五大里程碑的逐帧拆解unsetunset

第一程：分层架构定调（2025.06｜LeVERB，UC Berkeley）

论文名称：LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

机构：UC Berkeley

在此之前，传统 VLA 的思路很 “直接”：把图像和语言指令输入模型，直接输出关节角度、力矩等底层控制指令。但这样做的问题显而易见：高层推理慢，直接输出底层指令会导致延迟；底层控制只看关节数据，完全没有 “语义理解”——比如指令是 “蹲下抓杯子”，模型只知道调整关节，却不懂 “蹲下” 是为了 “抓杯子”，泛化性极差。

伯克利团队的核心思路是：不要让高层语义直接对接底层控制，而是加一个 “中间层”。

LeVERB 的 “双系统”：让大脑和身体各做擅长的事

LeVERB 被拆成两个独立但协同的系统，就像人的 “大脑思考” 和 “身体执行”：

高层：LeVERB-VL（System 2，10Hz）——负责 “想清楚做什么”

这个系统基于 CVAE（条件变分自编码器）构建，输入是视觉场景（比如货架+箱子）和语言指令（“抓取货架下的箱子”），但它不输出任何关节指令，只输出一个 “潜动作向量（latent verb）”——比如 “下蹲+向前伸手+抓握” 的抽象表征。

更关键的是，这个系统的训练完全不用真机遥操作：靠合成渲染的虚拟场景+文本标注就能完成，大大降低了数据成本。

底层：LeVERB-A（System 1，50Hz）——负责 “精准做出来”

这是一个轻量级的全身控制器（WBC），用 Transformer+强化学习（RL）训练，只接收高层的 “潜动作向量”，然后输出高频的力矩指令。它不依赖视觉输入，只靠机器人自身的本体感知（proprioception），比如关节角度、重心位置，保证 50Hz 的稳定输出。

关键创新：潜动作词汇表——语义与动力学的 “翻译官”

团队专门构建了一套 “潜动作词汇表”，比如 “前进”“侧移”“下蹲”“抓握” 等基础动作，每个动作对应唯一的向量表征。这就像给高层语义和底层控制搭建了 “翻译词典”，既解决了 10Hz 和 50Hz 的频率错位，又让底层控制能理解高层的 “意图”。

此外，LeVERB 还发布了首个 sim-to-real（仿真到真机）的全身 VLA 基准测试集 LeVERB-Bench，涵盖 10 大类 150+任务，让后续研究有了统一的对比标准。

落地效果：零样本迁移的首次突破

仅在仿真中训练的 LeVERB，直接部署到真机上：简单导航任务成功率 80%，全任务平均成功率 58.5%，是传统朴素 VLA 的 7.8 倍。

领域意义：

LeVERB 没有解决所有问题，但它定下了一个核心范式 ——“高层语义推理+底层高频控制” 的分层架构，后续所有全身 VLA 工作，都没有脱离这个框架。

第二程：底层能力规模化（2025.11｜SONIC，NVIDIA）

项目链接：https://nvlabs.github.io/GEAR-SONIC/

LeVERB 解决了 “架构分层”，但底层控制的 “通用能力” 依然不足：此前的人形控制器都是 “小模型、小数据、单任务”，比如走的模型只能走，抓的模型只能抓，而且奖励函数需要人工设计，换个任务就要重新调参。

NVIDIA 的思路是：把 “运动跟踪” 做成通用基础模型，靠数据和算力的规模化，让底层控制具备通用能力。

SONIC 的 “三尺度缩放”：用堆料实现质变

NVIDIA 的优势在于数据和算力，SONIC 的核心就是 “缩放”——把小模型、小数据放大到极致：

数据缩放：收集 700 小时专业动捕数据，涵盖行走、跑跳、舞蹈、格斗等几乎所有人类运动姿态，总计 1 亿帧；
模型缩放：模型参数从 1.2M（百万）提升到 42M，从专用小网络变成通用基础模型；
算力缩放：投入 9000 GPU 小时，用 128 卡并行训练，直到模型完全收敛。

关键创新：统一令牌空间——打通所有输入形式

SONIC 设计了一套 “统一令牌空间”，能同时接收三种输入：机器人运动数据、人体 SMPL 模型数据、混合关键点数据。这意味着，VR 采集的动作、视频中的人类动作、文本指令、VLA 输出的潜动作，都能被 SONIC 理解和跟踪。

此外，SONIC 还内置了一个 5ms 级的实时运动规划器，不管是行走速度、转向方向，还是蹲、跪、爬等特殊姿态，都能实时响应。

落地效果：零样本泛化的 “天花板”

对于没见过的新动作，SONIC 依然能稳定跟踪，真机零失败率达到 100%——这意味着，只要给 SONIC 一个目标姿态，它就能让机器人精准复刻，无需针对单个动作微调。

领域意义：

SONIC 证明了一个核心结论：运动跟踪可以作为人形机器人的基础模型预训练任务。它就像给后续的 VLA 工作提供了一个 “稳定的底盘”，不管高层想让机器人做什么动作，底层都能精准、稳定地执行。

第三程：全域协同的里程碑（2025.12｜WholeBodyVLA，复旦+港大 OpenDriveLab+智元机器人）

论文名称：WHOLEBODYVLA: TOWARDS UNIFIED LATENT VLA FOR WHOLE-BODY LOCO-MANIPULATION CONTROL 2025

论文链接：https://arxiv.org/pdf/2512.11047

项目链接：https://opendrivelab.com/WholeBodyVLA

LeVERB 定架构，SONIC 强底层，但此前所有工作都局限在 “小空间、轻负载、短时序”——比如在桌面抓个杯子，在实验室走几米。而真实场景需要的是 “大空间、重载、多步骤”：比如仓库里推 50kg 的推车，从货架到周转箱的长距离移动。

WholeBodyVLA 的目标，就是把人形机器人 “搬出实验室”，实现真正的移动-操控一体化。

核心突破：解决三大死穴的 “双杀技”

WholeBodyVLA 的研发团队直面行业最痛的三个问题：数据稀缺、执行错位、空间受限，给出了两套革命性技术：

统一潜动作学习（Unified Latent Learning）：砍掉 75% 的遥操作数据

团队设计了两个分离训练的 “潜动作模型（LAM）”：

Manipulation LAM：专门学精细操作，数据来自真机双臂的实操记录；
Locomotion LAM：专门学移动姿态，数据来自低成本的头戴摄像头视频（无需专业动捕）。

训练时，先把无标签的视频转换成离散的潜动作，再用这些潜动作做监督训练 VLA 模型。这套方法直接让遥操作数据的依赖度降低 75%，任务成功率提升 38.7%。

LMO-RL 专用控制器：为 “操控” 而优化的移动策略

传统控制器都是 “速度追踪” 思路——只保证机器人按指定速度走，但不管手部操控的需求。WholeBodyVLA 抛弃了这种思路，设计了 LMO-RL 控制器：

用 “前 / 侧 / 转 / 蹲” 等离散指令作为接口，让移动完全服务于操控；
分两阶段课程学习：先练 “稳定”（比如推重载不摔倒），再练 “精准”（比如下蹲抓物不偏移）；
最终实现转向偏差减少 73%，下蹲晃动减少 40%，能稳定推行 50kg 以上的重载。

真机里程碑：三个 “行业首次”

在智元机器人 AgiBot X2 上，WholeBodyVLA 完成了三个此前从未实现的任务：

装袋：抓取物品→侧移调整位置→下蹲放置入袋；

装箱：下蹲抓取箱子→转身调整方向→推车到指定位置放置；

重载推行：推着 50kg+的推车稳定前进，全程不晃、不倒。

这些任务的平均成功率达到 78%，比当时的基线模型高出 21.3%。

领域意义：

WholeBodyVLA 直接定义了 “人形全身 VLA 的最终形态”：统一潜学习+专用底层控制+大空间端到端。它证明了人形机器人可以在真实场景中完成复杂、重载、长时序的任务，不再是实验室里的 “花瓶”。

第四程：高频稳定的终极解（2026.03｜PhysiFlow，上海交通大学）

标题：PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-Brain Latent Flow Matching and Robust Tracking

作者单位：上海交通大学自动化系

URL：https://arxiv.org/pdf/2603.05410v1

WholeBodyVLA 解决了 “做得到”，但还没解决 “做得稳、做得快”：大模型 VLA 推理慢，依然会导致动作卡顿；小模型虽然快，但物理稳定性差，复杂场景下容易失衡。

上海交大团队的思路很巧妙：模仿人类大脑的分工机制，让不同 “脑区” 负责不同频率的任务。

三脑仿生架构：10Hz 思考+50Hz 规划+1000Hz 执行

PhysiFlow 把控制器设计成三个 “脑区”，对应不同的频率需求：

新皮质脑（Neocortical，10Hz）：负责 “理解意图”。基于 SigLIP+CVAE，输入图像和文本指令，输出 256 维的语义-运动意图向量——就像人类的大脑皮层，负责高级认知；
基底神经节脑（Basal Ganglionic，50Hz）：负责 “生成动作”。用流匹配（Flow Matching）算法替代传统的自回归生成，直接生成 50Hz 的动作块，推理延迟仅 18.65ms，速度比自回归模型提升 126 倍——就像人类的基底神经节，负责动作规划；
小脑脑（Cerebellar，1000Hz）：负责 “精准执行”。1000Hz 的 PD 跟踪控制器，用强化学习+师生学习训练，保证动作完全符合物理规律，不晃、不倒——就像人类的小脑，负责运动协调。

关键创新：流匹配+联合微调

流匹配算法的核心优势是 “非自回归”：不用一步步生成动作，而是直接生成完整的动作序列，速度极快；同时，团队还让动作生成模块和跟踪控制器联合微调，让生成的动作天然符合机器人的动力学特性，不用后期修正。

落地效果：复杂任务成功率 74.9%

在复杂的全身协同任务中，PhysiFlow 的成功率达到 74.9%，比 LeVERB 高出 9.9%——关键是，这个成功率是在 “实时、稳定” 的前提下实现的，没有卡顿、没有失衡，完全适配家庭、仓库等动态真实场景。

领域意义：

PhysiFlow 把 “实时性、稳定性、泛化性” 三个维度同时拉满，解决了全身 VLA 最后一个核心痛点：“做得快又做得稳”。

第五程：数据效率的革命（2026.03｜/Psi0，南加州大学 PSI Lab）

论文标题：: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation 2026

论文链接：https://arxiv.org/abs/2603.12263

项目主页：https://psi-lab.ai/Psi0

机构：南加州大学 PSI Lab

前面的工作，要么依赖大量仿真数据，要么依赖动捕数据，要么依赖真机遥操作数据——本质上还是 “数据越多越好”。但对于产业界来说，真机数据的采集成本依然是巨大的门槛：没有 NVIDIA 那样的算力，没有伯克利那样的仿真资源，中小团队根本玩不起。

的核心目标是：用最少的数据，训练出最强的全身 VLA 模型。

三阶段训练范式：避开人机动作的 “分布冲突”

人机的身体结构差异大，直接混合人类视频和机器人数据训练，效果会很差——这是此前数据效率低的核心原因。设计了分阶段训练，彻底避开这个问题：

Stage1：人类视频预训练（无机器人数据）

用 829 小时的人类第一人称视频（比如人推推车、抓箱子的视角），训练视觉-语言模型（VLM），让模型学习 “任务先验”——比如 “推重物时要弯腰、重心前移”，这个阶段只预测单步动作，不涉及机器人关节；

Stage2：人形数据后训练（冻结 VLM）

把 VLM 的参数冻结，只训练一个 “MM-DiT 动作专家” 模块，让模型学习把人类的动作先验，转换成机器人关节空间的动力学指令；

Stage3：少量遥操作微调（每任务仅 80 条轨迹）

针对具体任务，只用 80 条真机遥操作轨迹微调，快速适配长时序复杂任务。

关键创新：MM-DiT 动作头+实时刻块（RTC）

MM-DiT 动作头：把视觉-语言特征和动作特征做联合注意力，比传统的 DiT 模型效果提升显著；
实时刻块（RTC）：把推理出的动作分成小块，实时调整，解决了推理延迟导致的动作抖动问题。

落地效果：1/10 数据，40%+ 提升

仅用传统 VLA 1/10 的数据量，任务成功率就高出 40% 以上——这意味着，中小团队不用再依赖昂贵的动捕设备和大规模真机数据，仅靠人类视频+少量真机微调，就能训练出可用的模型。

领域意义：

完成了数据效率的革命，证明 “高质量人类视频+少量真机数据” 是训练通用人形模型的可行路径，大幅降低了全身 VLA 的落地门槛。

unsetunset全局视角：四大跃迁看懂领域演进unsetunset

把五大里程碑串联起来，人形机器人全身控制的演进路径清晰可见，核心是四次关键跃迁：

架构跃迁：从 “端到端黑盒” 到 “分层解耦标准范式”

LeVERB 之前，大家都在试 “端到端”——把图像+语言直接映射到关节指令，结果是慢、不稳、泛化差。LeVERB 之后，“高层语义（10Hz）+ 底层高频控制（50Hz+）” 成为标配，各司其职，既保证理解意图，又保证稳定执行。

数据跃迁：从 “昂贵遥操作” 到 “廉价视频+少量真机”

从 LeVERB 的合成数据，到 WholeBodyVLA 的无标签视频，再到的人类视频预训练，数据来源从 “专业、昂贵、稀缺” 变成 “通用、廉价、易得”，数据成本下降了一个量级。

控制跃迁：从 “速度追踪” 到 “移动-操控专用策略”

传统控制只追求 “走得快、走得稳”，而 LMO-RL（WholeBodyVLA）、小脑跟踪（PhysiFlow）让控制的目标变成 “为操控而走”——移动的速度、方向、姿态，都服务于手部的操控任务。

空间跃迁：从 “桌面小空间” 到 “全域大空间”

LeVERB、SONIC 还局限在实验室小空间，WholeBodyVLA 直接突破到大空间、重载场景，标志着人形机器人正式走出实验室，向真实落地场景迈进。

unsetunset结语：从 “机器人” 到 “类人智能体” 的跨越unsetunset

2025-2026 这短短一年，不是简单的技术迭代，而是人形机器人全身控制的 “范式革命”：

LeVERB 搭好了骨架（分层架构）；
SONIC 筑牢了底盘（通用运动基础）；
WholeBodyVLA 画出了蓝图（全域协同形态）；
PhysiFlow 打通了血脉（高频稳定执行）；
降低了门槛（数据效率革命）。

这五大工作，共同把人形机器人从 “执行预设指令的机器”，推向了 “理解意图、全域协同的类人智能体”。

未来 3 年，通用人形机器人的核心方向已经明确：统一潜空间+分层高频控制+视频物理先验+大空间全身协同。而这五大里程碑，正是这场革命的开篇——它们不仅解决了当下的技术痛点，更给行业指明了清晰的路径：人形机器人的未来，不在单技能的内卷，而在全身协同的 “类人化”。