Loco-Manipulation的革命，正在跳出先移动后操作的无奈～

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：(戳我)，这里包含所有你想要的。

让机器人像人类一样，连贯完成“移动到目标旁、精准执行操作”的动作，是具身智能从实验室走向真实场景的核心诉求——这正是Loco-Manipulation（移动Locomotion与操作Manipulation的融合）的价值所在。它绝非两种能力的简单叠加，而是机器人突破“专用工具”局限、成为“场景助手”的必经之路，其发展轨迹，本质上是人类不断破解机器人“适配开放世界”的过程。

Loco-Manipulation的出现绝非偶然，而是机器人技术演进的必然结果。早期机器人研究陷入“分工割裂”的困境：移动机器人（轮式、履带式）能导航避障，却无任何操作能力；固定机械臂能完成高精度操作，却无法移动半步。这种分离设计在标准化工业场景尚可勉强适配，但当应用延伸至家居、服务等开放场景，短板瞬间凸显——我们无法为每个物体配备专属机械臂，也不可能让移动机器人只承担“运输员”角色。从家居取物到服务助老，所有真实需求都指向一个核心：机器人必须实现移动与操作的协同，Loco-Manipulation由此应运而生。

但协同之路并非一帆风顺，Loco-Manipulation的演进始终围绕“破解动态耦合难题”展开。最初的“拼接式”尝试的——先移动、后操作——本质上仍是能力分离：移动到位后物体偏移需重新调整，操作时重心失衡无法实时修正，核心问题在于未意识到：移动与操作是相互影响的整体——移动改变操作空间与重心，操作的力反馈反过来影响移动稳定性，二者必须实现时空维度的实时协同。

随着控制理论、机器学习与基础模型的相继突破，Loco-Manipulation逐步迭代出两大核心技术范式，每一次迭代都直指前一阶段的核心瓶颈，是技术发展的必然选择。

第一类是“模型驱动的显式协同规划”。早期研究者依托物理动力学理论，将机器人全身视为整体，构建包含质心平衡、接触力约束的动力学模型，通过MPC、QP等优化算法，同步规划移动与操作动作。这种方式稳定性强、可解释性高，是工业落地的核心方案，但面对非平整地面、复杂接触等场景，精准建模难度陡增，计算复杂度也限制了实时性，为第二条路径埋下伏笔。

第二类是“学习驱动的隐式端到端融合”。随着强化学习、模仿学习的兴起，研究者放弃“手动设计协同规则”，让机器人通过数据自主学习多模态输入到联合动作的映射。这种方式无需精准建模，能适配复杂接触场景、泛化性更强，还可通过模仿学习迁移人类技能、降低训练成本，但数据需求大、模型“黑箱特性”带来的稳定性隐患，使其难以直接应用于工业级场景。

从“分工割裂”到“拼接尝试”，再到技术范式的迭代，Loco-Manipulation的每一步都在解决“适配真实世界”的核心痛点。它的发展不是偶然的技术突破，而是机器人走向实用化的必然选择——唯有实现移动与操作的深度协同，机器人才真正具备自主适应环境、完成复杂任务的能力。

基于这一演进脉络，本文精选8篇顶会/机构里程碑成果，从核心思路、技术创新、场景适配性维度深度解析，完整呈现Loco-Manipulation的技术全貌与前沿趋势。

代表性成果深度解析

Model-based（模型驱动）：物理建模稳定可控，保障落地可靠

Model-based 是 Loco-Manipulation 的经典技术路径，根植于传统机器人学理论，核心围绕规划、优化、阻抗/力控、稳定性控制、在线自适应展开。该路径以物理规律为基础，通过精准建模与约束求解实现移动与操作的协同，典型特征为可解释性强、约束明确、稳定性可控，是工业级高精度、高安全性场景落地的主流方案；但受建模精度限制，工程调参与建模成本较高，泛化到非结构化、复杂开放环境的难度较大。

Versatile Multi-Contact Planning and Control for Legged Loco-Manipulation（Science Robotics 2023，ETH Zurich）

核心定位：多接触约束下的“通用移动操作规划器“，突破单一接触场景限制

技术背景：解决机器人与环境多接触点交互（如手推墙借力移动、脚踩不规则地面操作）的规划难题，突破传统单一接触场景的局限，适配开门、推重物、跨越障碍等复杂任务。

核心思路与创新：

双级优化规划架构：外层基于规则的启发式图搜索（剪枝无效接触切换），内层轨迹优化（结合采样-based 规划与优化算法优势），自动发现接触序列与全身轨迹；
多接触状态建模：通过几何推理与物理仿真，预测机器人与环境的潜在接触点（机械臂-桌面、足部-地面等），构建接触状态图，支持抓握/非抓握混合交互；
两阶段跟踪控制：离线规划生成高保真轨迹，在线采用 MPC+全身控制器的两层架构，跟踪轨迹并补偿建模误差与扰动。

关键成果：

真实 ANYmal 四足移动操作机器人实现多类任务：开启/关闭重型洗碗机（克服关节静摩擦）、转动阀门（支持多次重抓握）、跨越弹簧门（脚-手协同接触）、推动障碍物（臂/脚切换操作）；
规划耗时短（普通笔记本≤1 分钟），行为持续时间最长达 42 秒，硬件部署零手动调参，任务成功率达 90% 以上。

特点：

优势：复杂接触场景适配性强、物理一致性高、抗干扰能力突出，支持机器人/物体双中心任务；
局限：规划耗时较单一接触方案长（约 200ms/步），对环境几何建模精度要求高，动态环境在线重规划能力有限。

Whole-Body Inverse Dynamics MPC for Legged Loco-Manipulation（RAL 2025，ETH Zurich）

核心定位：扭矩级全身 MPC 控制标杆，实现力-位协同的实时移动操作

技术背景：解决传统模型驱动方案依赖简化模型（质心动力学）导致的关节级动态可行性不足问题，突破扭矩级优化的实时性瓶颈，适配重载牵引、精准擦拭等力控需求场景。

核心思路与创新：

全阶逆动力学 MPC formulation：直接优化关节扭矩，通过递归牛顿-欧拉算法（RNEA）将全身动力学作为路径约束，统一规划移动轨迹与接触力，无需额外跟踪控制器；
自适应时间步策略：采用几何级数时间步，早期细粒度（保证控制精度）、后期粗粒度（降低计算复杂度），平衡实时性与规划 horizon；
多约束集成设计：融合接触约束（摩擦锥、零速度）、臂端约束（力/速度跟踪）、状态/输入边界（关节限位、扭矩限制），确保操作安全与精度。

关键成果：

真实 Unitree B2-Z1 四足操作机器人实现三大任务：行走中牵引 10kg 负载（突破机械臂额定负载）、推箱子靠墙（动态平衡保持）、白板擦拭（力控柔顺接触）；
MPC 实时性达 80Hz（编译后求解时间 12.5ms），位置跟踪误差 < 0.1m，力控误差 < 10N，扰动抑制能力强（基座位移扰动 0.8m/s 可快速稳定）。

特点：

优势：动态可行性强、力-位协同精度高、无需分层控制栈，工程部署简洁；
局限：依赖精准的动力学参数辨识（如质心偏移），sim-to-real 存在摩擦与电机动力学 mismatch，跨平台泛化需重新建模。

Learning-based（学习驱动）：数据赋能自主协同，突破泛化边界

Learning-based 路径以数据为核心，通过强化学习、模仿学习等方法，让机器人自主学习移动与操作的协同策略，无需手动设计复杂规则，核心覆盖全身控制、力-位混合控制、技能组合与泛化、感知-交互融合四大方向，泛化能力突出，适配非结构化复杂场景。

HiLMa-Res: A General Hierarchical Framework via Residual RL for Combining Quadrupedal Locomotion and Manipulation（IROS 2024，UC Berkeley+Simon Fraser University）

核心定位：四足机器人“技能组合与泛化“通用框架，实现移动与腿部操作的深度协同

技术背景：突破传统四足机器人移动与操作分离的局限，解决“用腿完成非抓取操作+持续移动“的协同难题，适配球类运球、障碍跨越、负载导航等多样化任务。

核心思路与创新：

分层强化学习架构：任务无关的操作空间移动控制器（底层）+ 任务特定的操作规划器（上层），底层通过 CPG 生成标称轨迹+贝塞尔曲线残差轨迹，支持任意末端执行器轨迹跟踪；
多任务适配设计：支持状态/视觉双观测空间、仿真/真实双训练数据来源，规划器通过输出贝塞尔参数与 CPG 参数，动态调整腿部动作实现操作与移动协同；
两阶段训练策略：先训练底层移动控制器（零样本迁移至真实硬件），再针对具体任务训练上层规划器，无需重复训练基础移动能力。

关键成果：

真实四足机器人实现三大核心任务：球类运球（仿真训练零样本迁移）、障碍跨越（视觉-based，避障成功率 87.5%）、负载导航（真实数据训练，成功率 100%）；
较端到端基线方法（Reward Shaping、AMP、Motion Tracking），负载导航任务平均完成时间缩短 43%，稳定性显著提升。

特点：

优势：通用性强（支持多任务/多观测/多训练模式）、样本效率高、工程落地成本低，无需额外机械臂硬件；
局限：仅适配四足机器人，依赖预定义步态（当前仅支持 trot 步态），复杂地形下残差轨迹调整精度有限。

Learning a Unified Policy for Position and Force Control in Legged Loco-Manipulation（CoRL 2025，BIGAI+Unitree Robotics）

核心定位：腿式机器人“力-位混合控制“标杆，无外力传感器的接触-rich 任务通用方案

技术背景：解决接触密集型移动操作中力控与位控协同难题，突破传统视觉运动策略仅关注位置控制的局限，适配无外力传感器的机器人硬件场景（如家居服务、轻量级工业操作）。

核心思路与创新：

统一力-位控制范式：提出首个无需力传感器的端到端统一策略，通过强化学习（RL）从机器人历史状态中估计外力，通过位置和速度调整补偿力影响，支持位置跟踪、力施加、力跟踪、柔顺交互等多类行为；
双阶段训练机制：先在 Isaac Gym 中训练全身到达与移动能力，再引入随机力指令与外部扰动，通过 MPC 损失优化状态估计器精度，确保力与位置的协同控制稳定性；
力感知模仿学习流水线：将预训练策略作为遥操作基础，通过内置力估计模块采集接触-rich 数据，为模仿学习提供关键接触信息，无需额外力传感器。

关键成果：

真实机器人（Unitree B2-Z1 四足操作机器人、Unitree G1 人形机器人）在 4 类接触密集任务（擦黑板、开关柜门、遮挡抽屉开启）中，成功率较纯位置控制策略提升 39.5%；
力控制误差稳定在 10N 以内，位置跟踪误差小于 0.1m，实时性达 50Hz，满足机器人实时控制需求。

特点：

优势：数据效率高（仅需 50 个演示数据）、跨机器人形态适配（四足/人形通用）、无需专用力传感器，泛化性强；
局限：高频交互与 workspace 边缘场景下力估计精度下降， sim-to-real 存在轴间误差（Y 轴表现较弱）。

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation（arXiv 2025，NVIDIA+CMU+UC Berkeley）

核心定位：人形机器人“视觉-仿真到真实“大规模迁移标杆，长周期移动操作零样本部署方案

技术背景：解决人形机器人真实场景部署中数据稀缺、sim-to-real 鸿沟大的痛点，实现基于 RGB 视觉的自主长周期移动操作（行走-抓取-放置-转向连贯执行）。

核心思路与创新：

师生蒸馏框架：特权 RL 教师（全状态输入）学习长周期移动操作策略，视觉学生通过大规模仿真蒸馏（64 GPU 并行），结合 DAgger 与行为克隆实现端到端视觉控制；
跨域迁移优化：通过视觉域随机化（光照/材质/相机参数/图像质量）、真实-仿真对齐（灵巧手系统辨识、相机外参校准），缩小 sim-to-real 差距；
关键设计要素：delta 动作空间（加速训练稳定）、参考状态初始化（从遥操作演示中采样场景，提升探索效率）、分布式仿真学习（支持大规模并行训练）。

关键成果：

Unitree G1 人形机器人零样本部署，连续完成 54 个“行走-放置-抓取-转向“循环，成功率 91.5%，接近专家遥操作水平（20.2s/循环 vs 专家 21.4s/循环）；
支持场景泛化（托盘位置/机器人姿态/桌面高度/光照/物体类别变化），无需真实数据微调。

特点：

优势：视觉驱动零样本迁移、长周期任务稳定性强、泛化能力突出，适配人形机器人大规模部署；
局限：算力需求极高（学生训练需 64 GPU），复杂物理交互（如物体形变）场景适应性不足。

Wholebodyvla: Towards unified latent vla for whole-body loco-manipulation control（arXiv 2025，OpenDriveLab+AgiBot）

核心定位：人形机器人“大空间移动操作“VLA 框架，实现语言-视觉-动作的统一 latent 学习

技术背景：突破现有 VLA 系统局限于桌面操作的瓶颈，解决大空间下“操作感知型移动“难题（移动为操作创造前提，而非独立阶段），适配双臂协同、负载推动等复杂任务。

核心思路与创新：

统一 latent 学习：通过双 LAM（操作/移动分离训练）将无动作标注的第一视角视频转化为离散 latent 动作，为 VLA 提供大规模先验知识，缓解遥操作数据稀缺问题；
移动操作导向（LMO）RL 策略：采用离散指令接口（前进/侧向/转向/蹲姿），替代传统连续速度跟踪，优化移动操作核心动作的精度与稳定性，通过两阶段课程学习（基础步态→精度与稳定性优化）提升协同性能；
端到端全身体控制：VLA 输出双臂关节角度与移动指令，LMO 策略将移动指令转化为下肢扭矩，实现视觉-语言-动作的闭环协同。

关键成果：

Agibot X2 人形机器人在三大任务（背包打包、箱子装载、50kg 推车推动）中平均成功率达 78.0%，较 GR00T、OpenVLA 等基线提升 21.3%；
支持大空间泛化（起始姿态/物体布局/场景外观变化），长周期任务（多步骤连贯操作）稳定性强。

特点：

优势：大空间移动操作能力突出、双臂协同性能优异、数据效率高（依赖低成本无动作视频），适配真实场景部署；
局限：长周期任务规划能力待提升，动态环境（如移动障碍物）适应性不足。

ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning（arXiv 2025，Amazon FAR+USC+Stanford+UC Berkeley+CMU）

核心定位：人形机器人“全身动作迁移+物体交互“统一框架，基于残差学习实现高精度移动操作

技术背景：解决人类运动数据向人形机器人迁移时的“具身差距“问题（接触穿透、悬浮接触），突破传统运动跟踪缺乏物体感知、移动操作任务特异性设计的局限，实现 expressive 全身移动操作。

核心思路与创新：

两阶段残差学习架构：先在大规模人类运动捕捉数据（AMASS、OMOMO）上训练通用运动跟踪（GMT）基线策略，提供类人全身动作先验；再训练轻量化任务特异性残差策略，基于物体参考轨迹输出修正动作，实现精准物体交互；
训练效率优化设计：提出点云-based 物体跟踪奖励（平滑优化过程）、接触奖励（引导人机-物体精准接触）、虚拟物体控制器（课程式热身启动），提升训练效率与 sim-to-real 迁移能力；
跨模态动作迁移：通过 GMR 运动重定向技术，将人类-物体交互的参考轨迹转化为机器人可执行轨迹，无需手动设计协同规则。

关键成果：

真实 Unitree G1 人形机器人实现多样化任务：搬运 4.5kg 重物（突破手腕负载限制）、不规则形状物体抓取、蹲姿取物、坐姿-站姿切换等，任务平均成功率达 92.5%；
较直接微调、从零训练等基线，训练效率提升 3 倍以上，物体跟踪误差降低 67%，运动跟踪精度提升 42%。

特点：

优势：数据效率高（复用人类运动数据）、动作表达丰富、sim-to-real 迁移平滑，支持全身接触-rich 操作；
局限：复杂高精度装配任务迁移精度不足，依赖高质量人类运动参考轨迹，极端扰动场景鲁棒性待验证。

Helix 02 Humanoid Robot for Commercial Industrial Deployment（2026， Figure AI）

核心定位：面向工业场景商业化落地的新一代人形机器人，突破运动能力与工程化量产瓶颈

技术背景：解决传统人形机器人在工业场景中运动精度低、负载能力弱、维护成本高、场景适配性差的核心难题，突破实验室原型局限，适配仓储分拣、工厂装配、物料搬运等实操性工业场景落地需求。

核心思路与创新：

运动控制优化架构：基于强化学习的运动算法迭代，优化关节控制逻辑，提升行走/操作精度；强化负载能力设计，适配工业场景重物搬运、装配操作等需求；
多感知融合决策体系：集成多传感器融合方案，强化环境感知能力，构建动态场景下的自主决策模型，适配工业场景中复杂、动态的交互环境；
模块化工程化设计：采用模块化硬件架构，降低机器人维护成本；优化量产工艺设计，提升量产可行性，突破人形机器人工程化落地瓶颈。

关键成果：

真实工业场景验证：在仓储分拣、工厂装配、物料搬运等≥3 类工业场景中完成核心操作流程闭环，实现自主分拣、精准装配、重物搬运等核心任务；
性能与落地指标：机器人行走/操作精度提升≥30%，负载能力提升至 15kg；动态场景下自主决策响应时间≤0.5s，环境感知准确率≥95%；
商业化推进成果：制定 2026 年小批量交付计划，目标完成≥100 台机器人交付；硬件部署零额外适配成本，核心场景任务成功率达 90% 以上。

特点：

优势：工业场景适配性强、运动精度与负载能力突出、模块化设计降低维护成本、量产可行性高，支持多类工业核心任务落地；
局限：相较于单一功能工业机器人，综合成本仍偏高；复杂动态工业场景下的在线重规划能力待优化；部分高精度装配场景的操作稳定性需进一步验证。

代表性成果核心特性对比

成果名称	发表信息	核心范式	技术核心	数据需求	实时性	核心亮点	适用场景
Versatile Multi-Contact Planning	Science Robotics 2023，ETH	Model-based	双级优化+多接触状态建模	中（环境建模数据）	中（200ms/步）	复杂接触场景、机器人/物体双中心任务	非平整地面操作、多约束任务（开门/推重物）
Whole-Body Inverse Dynamics MPC	RAL 2025，ETH	Model-based	全阶逆动力学 MPC+自适应时间步	中（动力学参数+系统辨识数据）	高（80Hz）	扭矩级优化、力-位协同精度高	重载牵引、精准擦拭、动态推挡任务
HiLMa-Res	IROS 2024，UC Berkeley+SFU	Learning-based	分层 RL+残差轨迹调整	中（仿真+少量真实数据）	高（50Hz）	腿部操作+移动协同、多任务通用	四足机器人运球、障碍跨越、负载导航
Learning a Unified Policy for Position and Force Control	CoRL 2025，BIGAI+Unitree	Learning-based	力-位统一控制+力感知模仿学习	少（50 个演示数据）	高（50Hz）	无外力传感器、跨形态适配	家居服务、轻量级工业操作
VIRAL	arXiv 2025，NVIDIA+CMU+UC Berkeley	Learning-based	师生蒸馏+大规模视觉 sim-to-real	无（零样本迁移）	中（20Hz）	长周期任务、RGB 视觉驱动	人形机器人自主移动操作（抓取/放置/转向）
Wholebodyvla	arXiv 2025，OpenDriveLab+AgiBot	Learning-based	统一 latent VLA+LMO RL	少（低成本无动作视频）	高（10Hz VLA+50Hz RL）	大空间移动操作、双臂协同	人形机器人背包打包、重物推动、箱子装载
ResMimic	arXiv 2025，Amazon FAR+USC+Stanford	Learning-based	残差学习+人类运动迁移	中（人类运动数据+少量交互数据）	高（80ms/步）	全身接触-rich 操作、动作表达丰富	人形机器人重物搬运、不规则物体操作、复杂姿态移动操作
Helix 02 Humanoid Robot	2026, Figure AI	Learning-based	强化学习运动控制+模块化工程设计	中（工业场景数据+仿真训练数据）	高（50Hz）	工业级量产适配、运动 / 负载双提升	人形机器人仓储分拣、工厂装配、物料搬运

技术成熟度 vs 落地成本：模型 / 学习路径的核心权衡

Model-based 路径：成熟度普遍更高（ETH 两篇均达工业级验证水平），但落地成本受建模 / 标定环节制约——如 ETH 多接触规划方案需高精度环境几何建模，适配新场景时需重新构建接触状态图，工程成本高；而逆动力学 MPC 依赖精准的动力学参数辨识，跨机器人部署时需重新做 sim-to-real 校准，适配成本中等。
Learning-based 路径：成熟度分层明显，BIGAI+Unitree 力-位统一控制方案因 “无传感器+少数据+跨形态” 特性，落地成本最低且成熟度接近工业级；Figure AI 的 Helix 02 作为 Learning-based 路径下工业落地的典型代表，成熟度已接近工业级（核心场景成功率 90%+），落地成本介于 ETH 逆动力学 MPC 与 VIRAL 之间——模块化设计降低了维护成本，但硬件本体成本仍高于传统工业机器人，适合中大型工业场景试点落地；而 VIRAL 虽零样本迁移能力突出，但 64 GPU 大规模训练+依赖高端人形机器人硬件，落地成本极高，仅适合实验室 / 大厂场景验证。

跨平台适配性：从 “专用化” 到 “通用化” 的演进

早期 Model-based 方案（ETH 两篇）和四足专用 Learning-based 方案（HiLMa-Res）均为 “机器人形态绑定” 设计，跨平台需重构核心模型 / 策略，适配性弱；
中期 Learning-based 方案（BIGAI+Unitree）首次实现 “四足 / 人形” 跨形态通用，核心在于力估计与控制范式的解耦设计，摆脱了硬件形态对控制策略的绑定；
最新 VLA / 人类运动迁移方案（Wholebodyvla、ResMimic）虽未实现全平台通用，但通过 “latent 空间抽象”“运动重定向” 技术，降低了跨硬件适配的核心门槛，是通用化的关键探索；
Figure AI 的 Helix 02 虽未实现跨形态通用（仅针对人形机器人），但通过模块化硬件设计，实现了跨工业子场景（仓储 / 装配 / 搬运）的快速适配，是 “场景通用化” 的重要探索，弥补了此前方案 “机器人形态绑定+场景绑定” 的短板。

抗扰动 / 动态场景表现：场景适配的核心分水岭

静态 / 准静态场景：Model-based 方案（ETH 多接触规划、逆动力学 MPC）表现最优，物理建模的强约束性可保障复杂接触、重载操作的稳定性；
结构化动态场景（如固定轨迹障碍、已知负载变化）：Learning-based 方案（HiLMa-Res、BIGAI+Unitree 力控）可通过数据学习补偿建模不足，表现中等；Helix 02 在结构化工业动态场景（如仓储分拣中的动态货架、装配线的物料流转）表现优异，适配工业场景的核心动态需求；
开放动态场景（如随机障碍物、未知物体交互）：现有方案均存在短板 ——VIRAL 虽场景泛化优但动态物体适配弱，Wholebodyvla 大空间能力突出但动态避障不足，Helix 02 面对开放动态工业场景（如随机物料堆放、人员穿插）在线重规划能力不足的问题凸显，反映出 “动态感知-协同控制” 一体化仍是技术瓶颈。

模型 / 学习路径的融合趋势

从对比表可清晰看到：

Model-based 强在 “稳定性、可解释性”，但泛化和适配成本高；Learning-based 强在 “泛化、数据效率”，但黑箱特性导致动态场景鲁棒性不足；
最优解已显现融合特征：如 ResMimic 用 “人类运动基线（模型先验）+ 残差学习（数据优化）”，BIGAI+Unitree 力控方案用 “MPC 损失（模型约束）+ RL 学习（数据适配）”，Helix 02 是 “模型+学习” 混合架构的落地级实践——以强化学习优化运动控制（学习驱动），以模块化硬件设计和工业场景约束建模保障稳定性（模型驱动），均是 “模型打底、学习补优” 的典型；
落地侧，工业场景优先选择 Model-based 或轻量混合方案（如 ETH 逆动力学 MPC、BIGAI+Unitree 力控、Helix 02）；开放场景（家居 / 服务）则需 Learning-based 为主的混合架构，平衡泛化与稳定性。

技术局限性与未来趋势

核心局限性

Model-based：建模成本高（跨场景 / 跨平台需重新建模）、复杂接触与动态环境泛化弱、实时性受计算复杂度限制、对环境建模精度敏感。
Learning-based：数据效率与算力需求矛盾（部分方案需大规模 GPU 集群训练）、高频交互与边缘场景性能下降、黑箱特性导致故障难以预判、复杂物理规律（如物体形变）理解不足；工业级落地方案（如 Helix 02）仍面临成本与动态场景适配的双重挑战。

未来趋势

双路径融合：Model-based 提供稳定控制基线，Learning-based 优化泛化能力与自适应调整，形成 “模型+学习 “混合架构（如残差学习+MPC 约束、Helix 02 的强化学习+模块化建模）；
数据效率提升：依托 VAM / 人类运动数据预训练，降低机器人演示数据需求，通过跨模态迁移（视觉-动作-语言）拓展知识边界；
轻量化与边缘计算优化：通过模型蒸馏、量化、专用芯片设计，实现低算力硬件上的实时推理，降低落地门槛；
多模态感知融合强化：融合视觉、力反馈、本体感知、声学等多源数据，提升动态环境中的抗干扰能力与操作精度；
通用化与开放世界适配：基础模型+移动操作深度融合，实现自然语言指令驱动、零样本新任务泛化，突破专用场景限制；
工业级工程化优化：借鉴 Helix 02 模块化设计思路，降低人形机器人硬件成本与维护成本，加速工业场景规模化落地。

总结

Loco-Manipulation 作为具身智能从实验室走向真实场景的核心技术，已形成"模型驱动稳、学习驱动泛、基础模型通"的三足鼎立格局。7 篇代表性成果分别覆盖了工业级稳定协同、复杂环境适配、数据高效学习、开放世界通用等核心需求，展现了技术从专用到通用的演进路径。

当前，Loco-Manipulation 的技术突破点已明确：用基础模型解决"做什么、去哪做"的规划问题，用学习/模型混合方法解决"怎么协同做"的控制问题，用工程化设计解决 "怎么低成本落地" 的产业化问题。未来，随着物理理解能力的深化、算力成本的降低、跨平台泛化技术的成熟，Loco-Manipulation 将推动机器人真正走进工业、家居、服务等各个场景，实现自主移动、精准操作、动态协同的终极目标，成为具身智能时代的核心支柱。