当前 ViLLA 模型虽试图通过潜在动作连接视觉、语言与机器人操作,却卡在了关键瓶颈:
让抽象动作扎根于物理规律!
为此,微软研究院、清华大学等机构新提出的 villa-X 框架,目的是改进机器人操作的潜在动作建模,先用本体感觉模型从人类视频里 “破译” 动作背后的物理逻辑(比如拿东西时关节发力的轻重规律);再用联合扩散模型,把文字指令拆解成一步步可执行的 “动作积木”,让潜在动作与实际操作指令精准绑定。
方法介绍
villa-X 的核心设计围绕潜在动作建模与动作整合机制展开,通过两个核心组件:Latent Action Model(LAM)和 Actor Module(ACT)实现机器人操作策略的学习,并分为三个训练阶段逐步优化。
▲说明:(a)villa-X架构图,(b)LAM的结构组成©️【深蓝具身智能】编译
▲说明:ACT的结构组成©️【深蓝具身智能】编译
核心组件设计
(1) 潜在动作模型(LAM)
LAM的核心功能是从连续观测帧中提取潜在动作,并确保与机器人物理行为对齐。其设计亮点包括:
逆动力学模型 (IDM): 通过时空 Transformer 编码输入的帧序列 (长度为 ), 经量化后生成 个潜在动作 , 用于捕捉帧间运动语义信息。
增强的动力学监督: 引入两个辅助解码器:
① 视觉前向动力学模型 (FDM): 基于当前帧 和潜在动作 预测未来帧 , 确保潜在动作捕捉到视觉变化;
② 本体感知前向动力学模型 (proprio FDM): 以当前机器人状态 和潜在动作 为输入, 预测未来 步的机器人本体感知状态和动作, 并通过上下文嵌入分离机器人特异性特征, 增强跨机器人泛化能力。
逆动力学IDM的代码部分:
上述代码通过输入视频流,提取视频中的潜在动作。以下为使用 IDM 的示例:
from lam import IgorModel
def read_video(fp: str):
from torchvision.io import read_video
video, *_ = read_video(fp, pts_unit="sec")
return video
lam = IgorModel.from_pretrained("LOCAL_MODEL_DIRECTORY").cuda()
video = read_video("path/to/video.mp4").cuda() # Load your video here
latent_action = lam.idm(video)
视觉前向动力学模型FDM的代码部分:
上述代码基于当前帧和潜在动作预测未来帧,确保潜在动作捕捉到视觉变化。以下为使用 FDM 的示例:
frames =
for i in range(len(latent_action[0])):
pred = lam.apply_latent_action(video[i], latent_action[0][i])
frames.append(pred)
(2) Actor模块(ACT)
ACT基于VLM模型将潜在动作作为中阶桥梁,连接视觉-语言提示与低级别机器人动作。设计包括3个组件:
VLM:采用预训练的PaliGemma模型提取视觉和语言特征;
ACT-latent:基于扩散模型,以VLM特征为条件,生成未来潜在动作序列,支持长horizon规划;
ACT-robot:同样基于扩散模型,以VLM特征和ACT-latent生成的潜在动作为条件,预测低级别机器人动作序列,同时可融合腕部相机输入(经ResNet-18 编码),通过注意力机制实现潜在动作对机器人动作的显式控制。
ACT模块代码(暂未开源,思路供参考)
① 先导入一些三方库
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from transformers import AutoModelForVision2Seq # 参考PaliGemma
from diffusion import GaussianDiffusion # 参考Transfusion扩散实现
from flow_matching import FlowMatchingLoss # 参考Flow Matching论文
import numpy as np
from typing import Dict
# 参考代码库:
# HPT: https://github.com/liruiw/HPT (模态Token处理)
# Transfusion: https://github.com/lucidrains/transfusion-pytorch (扩散Transformer)
# Moto: https://github.com/TencentARC/Moto (注意力掩码)
# PaliGemma: https://github.com/google-research/big_vision (V
② 定义ACT模块类,包含VLM特征提取、ACT-latent(潜在动作生成)、ACT-robot(机器人动作生成)3个部分,并给出推理代码。
训练流程
villa-X的训练分为三个阶段:
(1) 预训练LAM:在机器人轨迹和人类视频数据上训练IDM、FDM和proprio FDM,学习通用潜在动作表示;
(2) 预训练ACT:联合训练VLM、ACT-latent和ACT-robot,优化潜在动作生成与机器人动作预测损失;
(3) 微调ACT:针对目标机器人平台,初始化新的上下文嵌入,并在目标数据上进行微调,以适配具体硬件特性。

▲说明:villa-X由LAM和ACT两部分结构组成©️【深蓝具身智能】编译
训练微调代码
分预训练和微调2个阶段阶段,预训练共享trunk,微调适配新机器人。

实验
实验设计从以下4个疑问出发进行验证说明:
“
(2) ACT-latent能否成功预测未来的动作?
(3) ACT-latent能否有效利用预训练的潜在动作?
(4) 在模拟基准测试和真实机器人任务中,villa-X与现有VLA基线相比表现又如何?
验证改进的LAM模型质量
(2)在探测实验中,带本体感知前向动力学模型(proprio FDM)的LAM变体(w/pp)在LIBERO数据集上预测机器人动作时,低误差样本数量显著多于不带proprio FDM 的变体(wo/pp),最大L1误差更小。
▲说明:探测实验结果,在不同误差threshold下,w/pp减wo/pp的误差样本数量差值©️【深蓝具身智能】编译
(2)在决策预训练对比中,w/pp变体在SIMPLER环境的8项任务中性能显著优于wo/pp,并且没有LAM的基线(wo/LAM)表现最差。
▲说明:不同villa-X变体(上半部分)以及整合潜在动作的其他方法(下半部分)在SIMPLER上的评估结果©️【深蓝具身智能】编译
ACT-latent的未来动作规划能力验证
基于初始图像和语言指令,ACT-latent生成的潜在动作序列经世界模型渲染后,在分布内任务(如“移动银锅到左炉”、“打开抽屉”)和分布外任务(如“触摸表情符号”、“拾取新物体”)中均能准确识别目标并生成符合指令的动作。
注:分发内是指样本来自训练数据的验证集,而分布外是指样本来自Realman机械臂,这是训练中从未见过的新实施例。
▲说明:分布内和分布外数据,可以跳转到项目地址中查看完整功能:点击图片中的数字展示模型规划效果©️【深蓝具身智能】编译
ACT-latent对预训练潜在动作的利用有效性验证
在SIMPLER环境中,villa-X通过联合扩散和注意力机制实现潜在动作到机器人动作的显式传递,性能显著优于LAPA(两阶段预训练)和GO-1(自回归潜在规划)。

模拟与真实环境中的综合性能评估
(1)模拟环境:
在SIMPLER中,villa-X在Google机器人(平均59.6%)和 WidowX机器人(平均62.5%)上优于RT-1-X、OpenVLA等VLA模型以及 GR00T等潜在动作方法;
在LIBERO的4个任务套件中平均成功率90.1%,显著优于Diffusion Policy等基线。
▲说明:villa-X与现有方法在SIMPLER上的对比结果。标有∗的方法是在预训练后直接进行评估的,而其他方法则是在对应数据集上进行后训练(微调)后再评估的©️【深蓝具身智能】编译
▲说明:villa-X与现有方法在LIBERO四个任务套件上的评估结果©️【深蓝具身智能】编译
(2)真实世界:
在Realman机械臂任务中,villa-X在Pick-out、Unstack等任务成功率达100%,对场景变化的泛化(改变积木颜色/桌布)表现更优;
在Xarm灵巧手任务中,对seen和unseen的场景成功率均高于GR-1和GR00T。
▲说明:villa-X与现有方法在Xarm上的评估结果©️【深蓝具身智能】编译
▲说明:villa-X与现有方法在Realman上的评估结果©️【深蓝具身智能】编译

总结
villa-X是一种新型的视觉-语言-潜在动作(ViLLA)框架,其目的是改进VLA模型中的潜在动作建模,提升机器人操作的泛化能力和性能。
为解决现有方法中潜在动作不符合机器人物理动力学基础以及潜在动作向机器人动作信息传递效率不足的问题,villa-X提出了两项关键改进:
一是在潜在动作模型(LAM)中引入本体感感知前向动力学模型(proprio FDM),使潜在动作向机器人物理行为对齐;
二是通过联合扩散过程建模潜在动作与机器人动作分布,从而借助注意力机制实现更结构化的信息传递。
相较于现有的方案,villa-X能够获得更优的潜在动作、更强的未来动作规划能力、更有效的动作整合机制,在SIMPLER、LIBERO等模拟环境以及Realman机械臂、Xarm灵巧手等真实世界场景中均展现出更高的成功率和泛化能力,为通用机器人操作研究提供了强有力的基础框架。
编辑|木木伞
审编|具身君
Ref
论文题目:villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models
论文地址:https://arxiv.org/pdf/2507.23682
项目地址:https://microsoft.github.io/villa-x/


我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇


点击❤收藏并推荐本文