浙大 | EMP框架让人形机器人“学动作不摔倒”!

具身智能之心 2025-10-25 00:00
浙大 | EMP框架让人形机器人“学动作不摔倒”!图1
浙大 | EMP框架让人形机器人“学动作不摔倒”!图2

🚀研究背景与核心创新点🧩

   

EMP通过上半身模仿 + 下半身平衡 + 可执行修正,实现安全稳定的人形控制

项目主页https://anonymous.4open.science/w/EMP-project-page-4D58/

小编观点 💬

   

EMP 的亮点不只是控制策略本身,而是它代表了人形机器人强化学习的一个新范式

不再让 RL 去“硬学全部物理”,而是在 RL 前插入一个“动作可行性网络”,帮它判断什么该做、什么不该做。

在未来,如果再结合 VLA(VLA-RL、Helix、ControlVLA),我们可能会看到——机器人在执行语言指令前,也会先“想一想自己能不能做到”。

🌟EMP创新点概览

   

一个完整的“上半身模仿框架”,由三部分构成:

1️⃣ 运动重定向网络基于图卷积,将人类上半身动作映射到机器人关节空间,生成可训练的上半身数据集。

2️⃣ 上半身强化学习控制策略使用 Isaac Gym 训练 RL 策略,专注于下半身平衡控制,同时跟踪上半身的模仿目标。

3️⃣ 可执行运动先验模块(Executable Motion Prior, EMP)一个 VAE(变分自编码器)结构的网络,实时调整上半身动作幅度与方向,确保动作在机器人物理能力范围内。


论文核心思想一句话总结

   

“让机器人像人一样挥动手臂——但又不至于把自己晃倒。”


EMP 通过融合模仿学习与强化学习,使得机器人能够:

  • 稳站模仿人类上半身动作

  • 自动调整过大的动作幅度


🧩 算法框架与核心机制

   


整体结构

   

论文提出的整体系统如图 2 所示:

浙大 | EMP框架让人形机器人“学动作不摔倒”!图3

对应三阶段:

  • 数据生成用图卷积网络(GCN)将人类上半身动作映射到机器人结构;

  • 策略训练让机器人在 Isaac Gym 中学会在平衡状态下执行这些动作;

  • 运动修正判断当前状态是否超出执行极限,若是,则轻度修正动作。


Motion Retargeting

   

目标:解决人类与机器人骨架结构不匹配的问题。

方法

  • 采用 VQ-VAE(向量量化自编码器) 框架;

  • 将人类上半身(肩、肘、腕、躯干)作为节点,建立骨架图结构

  • 利用图卷积编码器–解码器结构,将人类动作转换为机器人关节角度。

损失函数

  • End-effector 误差(手的末端误差)

  • Orientation 姿态误差

  • Elbow 结构保持误差

  • Embedding 与 Commitment 损失(约束潜变量分布)

效果:在保持姿态自然的前提下,生成高质量的机器人动作数据集,为 RL 提供训练样本。


强化学习控制

   

(1) 任务分解

作者将策略拆分为:

  • π_lower:负责下半身的平衡控制(RL 训练)

  • π_upper:负责上半身模仿动作(由 EMP 指导)

强化学习的目标是:

让机器人在“站稳”的情况下,尽量模仿人类上半身的目标动作。

(2) 状态空间

状态包括:

  • 当前关节角度 q_t

  • 上一时刻动作 a_(t-1)

  • 基座姿态 rpy_t

  • 目标上半身动作 g_t

组合后历史窗口长度 T=15,用以捕捉连续时序信息。

(3) 奖励函数设计

奖励分三类:

  • 稳定性奖励:姿态、速度、加速度、重心高度

  • 运动一致性奖励:上半身模仿精度

  • 能量与光滑度惩罚:动作过大、变化过快会被惩罚

强化学习算法采用 PPO 变体,运行于 Isaac Gym 环境中,训练 6 小时即可收敛。

(4) Domain Randomization

为了 Sim-to-Real 迁移:

  • 随机化摩擦、惯量、扭矩、延迟;

  • 加入推搡扰动;

  • 改变手部负载(±1kg)。

这些让 RL 策略具备了“抗扰动性”,可直接迁移到真实硬件。


EMP 模块

   

(1) 核心思想

当上半身目标动作太大时(例如“举锤砸钉”),EMP 模块会:

  • 判断动作是否会导致重心偏移;

  • 若有危险,自动“收敛”动作幅度;

  • 保持平衡而尽量不失去原始动作形态。

(2) 网络结构

EMP 基于 变分自编码器 (VAE),由三部分组成:

  • 状态编码器

  • 目标动作编码器

  • 解码器

损失函数包括:

  • 重构损失

  • 姿态保持

  • 自碰撞惩罚

  • 重心约束

  • 光滑性

  • 正则化

其中,光滑性与姿态稳定是维持机器人平衡的关键。


世界模型

   

由于仿真环境(Isaac Gym)无法直接反传梯度,团队额外训练了一个 World Model fw 来预测状态转移,这使得 EMP 模块能在训练中“间接获得物理反馈”,让修正更符合动力学规律。


训练过程(Algorithm 1)

   

两阶段循环:

  1. 训练世界模型(预测下一状态);

  2. 训练 EMP 网络(根据预测梯度优化动作)。

整个过程在 RTX4060 上仅需 5 小时,显示出极高的工程实用性。


⚙️ 仿真与实机实验结果

   


仿真测试平台

   

  • 模型:27 自由度人形机器人(1.65m,60kg)

  • 环境:Isaac Gym

  • 频率:RL 与 EMP 各 50Hz,PD 控制器 1kHz

  • 数据:从 GRAB + AMASS 数据集中重定向生成的上半身动作


对比实验

   

实验基线包括:

  • Privileged Policy(理想上界)

  • Whole-body Policy(全身控制)

  • Decoupled Policy(仅 RL 下半身)

  • PMP(Predictive Motion Prior)

  • EMP(本文方法)

  • EMP when Danger(仅在危险时启用 EMP)

主要指标:

指标
含义
SUC
成功率
MJP
上半身关节精度
MSC
自碰撞率
MBV/MBA/MBO
基座速度、加速度、姿态稳定性
MUS
动作光滑性

结果与对比分析

   

方法
SUC↑
MSC↓
MBO↑
备注
Whole-body Policy
100%
0.0
0.52
平稳但动作抖动大
Decoupled Policy
97.0%
0.36
0.67
偶尔失衡
PMP
97.4%
0.37
0.68
略有提升
EMP (Ours)98.1%0.150.69最佳稳定性

📊 EMP 方法显著减少了自碰撞与振动,并保持动作光滑性;同时,几乎不牺牲模仿精度。

实验动画中(如“敲钉子”“拧灯泡”),当上半身动作幅度过大时,EMP 自动调整幅度,让机器人不再摔倒。


消融实验

   

取消部分 Loss 项的结果显示:

  • 去掉Orientation Loss → 稳定性几乎完全崩溃(成功率仅 2.6%)

  • 去掉Centroid Loss → 机器人重心频繁偏移(成功率 10.7%)

  • 去掉Smoothness Loss → 动作突变明显(成功率 27%)

结论:EMP 能稳定站立的关键是多重损失的协同约束。


实机测试与迁移

   

在真实的人形机器人平台上部署(27DoF),实测包括“抓取”、“挥动”、“旋转”等动作,EMP 策略可直接运行,无需再训练。即使双手负载随机变化(±1kg),机器人仍能保持稳定。

团队还测试了第二款老旧平台(结构相似但动力学差),EMP 依旧能显著提升成功率至 97.8%。

浙大 | EMP框架让人形机器人“学动作不摔倒”!图4

本文只做学术分享,如有侵权,联系删文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
智元办机器人挑战赛:清华&上海AILab夺冠,华南理工“单人成团”拿亚军
王兴兴回应“人形机器人长得吓人”:前几代的头部过于简单
一年一展,一展搞定!第三届移动机器人精品供应链展等你来!
迈向“心手合一”!中国高品质手术机器人成长进行时
让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界
国内具身创业公司的机器人,让老外直接破防了!
聚焦硬件性能突破,海康机器人发布多款移动机器人新品
最高1亿美元!配送机器人领军者拟出售股权
2025甲子Cool Vendor人形机器人大模型领域报告 | 甲子光年智库
小米汽车否认SOS一秒接通:AI 伪造/特斯拉人形机器人明年量产/阿里夸克AI眼镜开启预售
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号