

将人类演示转化为通用操作技能
——机器人学习的“金矿”
在具身智能领域,机器人操控始终受限于大规模高质量数据稀缺的难题 —— 传统方法依赖物理机器人遥操作采集数据,不仅成本高、效率低,还难以覆盖复杂场景。
阿里达摩院最新发布的 RynnVLA-001 模型,从1200万第一视角操控视频中训练图像 - 视频生成能力,再结合人类关键点轨迹预测打通视觉与动作的壁垒;同时引入 ActionVAE 压缩动作序列,让机器人动作更连贯、精准。
实测显示,RynnVLA-001 平均成功率超 90%,即便在多目标、含干扰物场景下仍表现稳定,大幅碾压 GR00T N1.5、π0 等主流模型。
这项工作不仅为机器人操控提供了全新技术路径,更推动具身智能向 "高效模仿人类技能" 迈出关键一步!

"三段式"渐进学习框架
RynnVLA-001设计了一个渐进式三阶段训练框架,模仿人类学习技能的自然过程。
如图1所示,整个训练管道巧妙地利用了三种不同类型的数据。

▲图1|RynnVLA-001的训练数据管道。我们的框架利用三种类型的训练数据:(1) 以自我为中心的视频生成预训练使用数百万个以自我为中心的人类操作视频进行未来帧预测。(2) 以人为中心的轨迹感知视频建模在带有人体关键点标注的视频上进行训练,实现帧和轨迹的联合预测。(3) 以机器人为中心的视觉-语言-动作建模采用配对语言指令的机器人数据集,学习从视觉观察和语言到机器人动作的映射。
第一阶段:建立操作动态的基础认知
第一人称视频生成预训练(Ego-Centric Video Generative Pretraining)
利用1200万个第一人称人类操作视频训练模型,让模型学会根据初始图像和语言指令预测后续的视频帧序列。
这个阶段的关键价值在于让模型建立对"什么是操作动态"的基础理解——就像让机器人先学会"看懂"人类是如何与物理世界交互的。
第二阶段:构建视觉与动作的桥梁
人体轨迹感知建模(Human-Centric Trajectory-Aware Modeling)
在视频预测的基础上增加了人体关键点轨迹预测任务。这个设计极其巧妙,因为人体关键点轨迹正是连接"观察到的视觉变化"和"需要执行的动作"之间的天然桥梁。
模型不再需要直接从复杂的视觉信息跳跃到抽象的动作空间,而是通过人体运动轨迹这个中间表示形式实现平滑过渡。

第三阶段:适配机器人执行系统
ActionVAE结合机器人微调(ActionVAE + Robot Finetuning)
ActionVAE将动作序列压缩成紧凑的潜在表示,模型在机器人数据上学习预测动作嵌入而非原始动作值。推理时,系统解码动作嵌入得到可执行的机器人动作序列。

设计背后的深层逻辑
模型架构
如图2所示,RynnVLA-001的训练包含三个递进的阶段,每个阶段都在前一阶段的基础上增加新的能力。

▲图2|RynnVLA-001的模型架构和训练阶段。
第一阶段专注于基础的视频生成能力,训练一个基于Transformer的图像到视频(I2V)模型进行未来帧预测;
第二阶段在I2V模型基础上扩展了动作预测头,同时融合视觉和状态嵌入信息;
第三阶段将预训练权重迁移到机器人数据上,模型生成的动作嵌入通过ActionVAE解码为可执行动作。
ActionVAE:解决动作表示的两难困境
传统方法在动作表示上面临两难选择:离散化动作会损失精度,直接预测连续动作则训练过程异常复杂。
ActionVAE提供了第三种解决方案——
通过变分自编码器架构,ActionVAE将动作序列编码为紧凑的连续表示空间,既保证了动作执行的平滑性,又大幅降低了预测空间的复杂度。

更重要的是,研究者针对人类轨迹和机器人动作分别训练了专用的VAE模型,充分考虑了不同运动学空间的特性差异。
数据处理
针对1200万个视频数据的处理,系统首先进行关键点检测,提取人脸、躯干和手部的关键点信息;
接着实施自我中心视角过滤,保留包含手部关键点的帧(表示正在进行操作),同时过滤包含人脸关键点的帧(避免隐私问题);
最后利用Qwen2-VL-7B模型进行智能文本标注,为每个视频片段生成简洁准确的文本描述。
架构选择
自回归Transformer架构
首先,这种架构天然符合VLA模型"观察→理解→行动"的推理流程;
其次,自回归机制能够有效学习物理动态过程中的时间连贯性和因果关系。
渐进式训练策略
通过大规模人类数据预训练解决机器人数据稀缺问题;
利用轨迹预测阶段缓解视觉理解与动作生成之间的模态差距;
最终实现从人类演示到机器人执行的高效知识迁移。

实验验证
评估任务设计
研究者设计了三个代表性的机器人操作任务来评估模型性能,如图3所示。

▲图3|评估任务说明。我们在三个任务上评估VLA模型的性能:(1) 拾取并放置绿色方块,(2) 拾取并放置草莓,(3) 抓取笔并放入支架。每个任务在三种设置下进行评估:单目标操作、多目标操作(前三张图像),以及带有干扰物的指令跟随(最右侧图像)。
每个任务都在三种不同的场景下进行评估:
单目标操作(桌面上只有一个目标物体);
多目标操作(桌面上有多个目标物体);
有干扰物的指令跟随(桌面上同时存在目标物体和干扰物体)。
这种分层评估设计能够全面测试模型在不同复杂度环境下的表现。
基准对比展现显著优势
与当前最先进的GR00T N1.5和Pi0模型相比,RynnVLA-001在所有三个任务上都表现出了显著优势,如表1所示。

▲表1|三个操作任务的性能比较。我们报告任务特定的成功率、三个任务的平均成功率和SR@1。每个数字代表表2中三种评估设置的平均SR。
所有模型都在相同的机器人数据集上进行微调,确保了评估的公平性。
RynnVLA-001在平均成功率上相比最强基线提升了20.2个百分点。
不同评估场景下的稳定表现
表2展示了模型在不同评估设置下的详细性能。

▲表2|三种不同评估设置的性能比较。单目标操作是指桌面上只有一个目标物体的设置。多目标操作意味着桌面上存在多个目标物体。带有干扰物的指令跟随是指目标物体和干扰物体同时存在于桌面上的测试情况。
值得注意的是,当场景复杂度增加时,基线模型的性能出现明显下降。
GR00T N1.5在多目标操作场景下成功率降至46.7%,Pi0在有干扰物的场景下成功率跌至60.0%。
相比之下,RynnVLA-001在所有场景下都保持了稳定的高性能表现。
消融实验
系统性的消融实验验证了架构设计的每个关键组件。表3展示了不同预训练策略的效果。

▲表3|预训练权重在三种评估设置上的有效性。我们用四种不同的初始化权重训练了RynnVLA-001的四个变体。我们报告三个任务的成功率、平均成功率和SR@1。
从零开始训练的模型几乎无法完成任何任务,平均成功率仅为4.4%。
仅使用Chameleon预训练权重的模型达到50.0%的平均成功率;
通过第一阶段视频预训练,性能显著提升至84.4%;
加入第二阶段轨迹感知建模后,最终模型达到90.6%的优异表现。

深入分析
视频生成预训练的可视化效果
图4展示了第一阶段预训练得到的视频生成模型的效果。

▲图4|视频生成预训练的可视化。给定输入图像和文本提示,I2V模型被训练来预测接下来的7帧。我们的预训练视频生成模型能够生成合理的运动,同时保持与输入图像的一致性。
给定输入图像和文本提示,模型能够生成具有合理运动轨迹且与输入图像保持一致性的后续7帧图像。
虽然生成的帧间变化相对细微,但这种程度的视觉动态建模已经足以为后续的VLA训练提供有效的预训练基础。
双摄像头系统的功能分析
研究者通过精心设计的实验分析了前置摄像头和手腕摄像头的不同功能,如图5所示。

▲图5|前置摄像头粗略定位功能分析。(a) 在正常双摄像头设置下,机器人成功拾取草莓。(b) 前置摄像头被遮蔽,只保留腕部摄像头功能。(c) 如果目标在腕部摄像头初始视野范围内,机器人仍可完成任务。然而,当目标在腕部摄像头视野之外(左侧)时,任务成功率从80%(4/5)降至0%,表明前置摄像头对于引导机器人到达目标粗略位置至关重要。
实验结果表明,前置摄像头主要负责粗略定位功能。
当前置摄像头被屏蔽时,只要目标物体位于手腕摄像头的初始视野范围内,机器人仍能成功完成任务;
但如果目标物体位于手腕摄像头视野之外,机器人则无法启动任何动作。
定量结果显示,对于位于右侧的目标物体,屏蔽前置摄像头后成功率从100%略降至80%;而对于位于左侧的目标物体,成功率则从80%直降至0%。
3D空间信息的重要性
图6进一步验证了前置摄像头在提供3D空间信息方面的关键作用。

▲图6|前置摄像头为精确操作提供关键的3D投影信息。(a) 在标准摄像头配置下,机器人成功将笔插入支架。(b) 当前置摄像头升高时,场景投影几何的改变导致模型任务失败。这突出了模型对前置摄像头提供的特定3D视角进行空间推理的依赖性。
在需要深度感知的精密操作任务(如将笔插入笔筒)中,标准摄像头配置下机器人能够成功完成任务。
但当前置摄像头被抬高、改变场景的投影几何关系时,模型无法成功插入笔。
这表明模型高度依赖前置摄像头提供的特定3D视角信息进行空间推理和精密操作。
设计选择的量化验证
表5的消融实验系统验证了关键设计选择的有效性。

▲表5|Calvin基准测试上VLA组件的消融研究。为了效率,所有模型都用减少的轮数进行训练;分数用于相对比较。
图像分辨率的影响显著:
从384×384降至256×256时,性能出现大幅下降,这主要归因于与VQGAN预训练分辨率的不匹配导致视觉标记质量下降。
动作表示方式的对比证实了ActionVAE的优越性:
使用VAE嵌入相比直接预测原始动作序列有明显优势,平均任务长度从4.019提升至4.161。
动作头复杂度:
简单的单层线性动作头反而比复杂的五层MLP表现更好,表明Transformer输出表示已经足够有效,额外的复杂度会引入噪声或过拟合。

思考与总结
渐进式学习的普适价值
RynnVLA-001最值得借鉴的是其渐进式学习思维。这种方法论遵循"先学通用规律,再建立映射,最后专业化"的三步策略。
具体而言,模型首先从大量人类数据中学习操作的通用动态规律,然后通过轨迹预测建立视觉理解与动作生成的映射关系,最后在特定机器人数据上进行专业化微调。
这种设计思路具有很强的普适性,可以推广到诸多需要跨域知识迁移的AI应用场景。
实用主义的技术权衡
研究者在关键技术决策上体现了明确的实用主义导向。
推理阶段放弃视觉帧预测而专注于动作生成,这个决定牺牲了一定的多任务学习效果,但显著提高了实际应用中的推理效率;
选择384×384而非512×512的图像分辨率,在保持足够视觉信息的同时控制了计算成本;
采用简单的单层线性动作头而非复杂的多层感知机,避免了过拟合问题并提高了训练稳定性。
总结
RynnVLA-001的核心价值在于证明了AI系统可以通过观察人类行为学习复杂的物理操作技能。这种能力不仅展现了当前技术的发展水平,更重要的是为未来的人机协作模式提供了新的可能性。
但仍存在一些局限性:
计算资源需求巨大,三阶段训练流程和大规模预训练对硬件资源提出了很高要求,限制了方法的普及应用;
评估范围相对有限,当前实验仅在LeRobot SO100机器人臂上进行,且评估环境与训练环境较为接近,难以充分验证方法的泛化能力;
固定摄像头配置限制了应用灵活性,前置摄像头的固定位置可能不适用于所有操作场景。
虽然当前方法仍有改进空间,但RynnVLA-001的提出为机器人学习领域确立了新的技术范式:机器人学习从数据驱动向知识迁移的重要转变。
编辑|Jeffrey J
审编|具身君
Ref:
论文题目:RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
论文地址:https://arxiv.org/pdf/2509.15212https://github.com/alibaba-damo-academy/RynnVLA-001
Hugging Face: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Trajectory
工作投稿|商务合作|转载
:SL13126828869(微信号)
>>>现在成为星友,特享99元/年<<<

【具身宝典】||||
【技术深度】|||||||
【先锋观点】|||
【非开源代码复现】||
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。
投稿|商务合作|转载:SL13126828869(微信)

点击❤收藏并推荐本文