阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图1

将人类演示转化为通用操作技能

——机器人学习的“金矿”

在具身智能领域，机器人操控始终受限于大规模高质量数据稀缺的难题 —— 传统方法依赖物理机器人遥操作采集数据，不仅成本高、效率低，还难以覆盖复杂场景。

阿里达摩院最新发布的 RynnVLA-001 模型，从1200万第一视角操控视频中训练图像 - 视频生成能力，再结合人类关键点轨迹预测打通视觉与动作的壁垒；同时引入 ActionVAE 压缩动作序列，让机器人动作更连贯、精准。

实测显示，RynnVLA-001 平均成功率超 90%，即便在多目标、含干扰物场景下仍表现稳定，大幅碾压 GR00T N1.5、π0 等主流模型。

这项工作不仅为机器人操控提供了全新技术路径，更推动具身智能向 "高效模仿人类技能" 迈出关键一步！

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图3

"三段式"渐进学习框架

RynnVLA-001设计了一个渐进式三阶段训练框架，模仿人类学习技能的自然过程。

如图1所示，整个训练管道巧妙地利用了三种不同类型的数据。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图4

▲图1｜RynnVLA-001的训练数据管道。我们的框架利用三种类型的训练数据：(1) 以自我为中心的视频生成预训练使用数百万个以自我为中心的人类操作视频进行未来帧预测。(2) 以人为中心的轨迹感知视频建模在带有人体关键点标注的视频上进行训练，实现帧和轨迹的联合预测。(3) 以机器人为中心的视觉-语言-动作建模采用配对语言指令的机器人数据集，学习从视觉观察和语言到机器人动作的映射。

第一阶段：建立操作动态的基础认知

第一人称视频生成预训练(Ego-Centric Video Generative Pretraining)

利用1200万个第一人称人类操作视频训练模型，让模型学会根据初始图像和语言指令预测后续的视频帧序列。

这个阶段的关键价值在于让模型建立对"什么是操作动态"的基础理解——就像让机器人先学会"看懂"人类是如何与物理世界交互的。

第二阶段：构建视觉与动作的桥梁

人体轨迹感知建模(Human-Centric Trajectory-Aware Modeling)

在视频预测的基础上增加了人体关键点轨迹预测任务。这个设计极其巧妙，因为人体关键点轨迹正是连接"观察到的视觉变化"和"需要执行的动作"之间的天然桥梁。

模型不再需要直接从复杂的视觉信息跳跃到抽象的动作空间，而是通过人体运动轨迹这个中间表示形式实现平滑过渡。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图5

第三阶段：适配机器人执行系统

ActionVAE结合机器人微调(ActionVAE + Robot Finetuning)

ActionVAE将动作序列压缩成紧凑的潜在表示，模型在机器人数据上学习预测动作嵌入而非原始动作值。推理时，系统解码动作嵌入得到可执行的机器人动作序列。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图6

设计背后的深层逻辑

模型架构

如图2所示，RynnVLA-001的训练包含三个递进的阶段，每个阶段都在前一阶段的基础上增加新的能力。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图7

▲图2｜RynnVLA-001的模型架构和训练阶段。

第一阶段专注于基础的视频生成能力，训练一个基于Transformer的图像到视频(I2V)模型进行未来帧预测；

第二阶段在I2V模型基础上扩展了动作预测头，同时融合视觉和状态嵌入信息；

第三阶段将预训练权重迁移到机器人数据上，模型生成的动作嵌入通过ActionVAE解码为可执行动作。

ActionVAE：解决动作表示的两难困境

传统方法在动作表示上面临两难选择：离散化动作会损失精度，直接预测连续动作则训练过程异常复杂。

ActionVAE提供了第三种解决方案——

通过变分自编码器架构，ActionVAE将动作序列编码为紧凑的连续表示空间，既保证了动作执行的平滑性，又大幅降低了预测空间的复杂度。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图8

更重要的是，研究者针对人类轨迹和机器人动作分别训练了专用的VAE模型，充分考虑了不同运动学空间的特性差异。

数据处理

针对1200万个视频数据的处理，系统首先进行关键点检测，提取人脸、躯干和手部的关键点信息；

接着实施自我中心视角过滤，保留包含手部关键点的帧（表示正在进行操作），同时过滤包含人脸关键点的帧（避免隐私问题）；

最后利用Qwen2-VL-7B模型进行智能文本标注，为每个视频片段生成简洁准确的文本描述。

架构选择

自回归Transformer架构

首先，这种架构天然符合VLA模型"观察→理解→行动"的推理流程；

其次，自回归机制能够有效学习物理动态过程中的时间连贯性和因果关系。

渐进式训练策略

通过大规模人类数据预训练解决机器人数据稀缺问题；

利用轨迹预测阶段缓解视觉理解与动作生成之间的模态差距；

最终实现从人类演示到机器人执行的高效知识迁移。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图9

实验验证

评估任务设计

研究者设计了三个代表性的机器人操作任务来评估模型性能，如图3所示。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图10

▲图3｜评估任务说明。我们在三个任务上评估VLA模型的性能：(1) 拾取并放置绿色方块，(2) 拾取并放置草莓，(3) 抓取笔并放入支架。每个任务在三种设置下进行评估：单目标操作、多目标操作(前三张图像)，以及带有干扰物的指令跟随(最右侧图像)。

每个任务都在三种不同的场景下进行评估：

单目标操作（桌面上只有一个目标物体）；
多目标操作（桌面上有多个目标物体）；
有干扰物的指令跟随（桌面上同时存在目标物体和干扰物体）。

这种分层评估设计能够全面测试模型在不同复杂度环境下的表现。

基准对比展现显著优势

与当前最先进的GR00T N1.5和Pi0模型相比，RynnVLA-001在所有三个任务上都表现出了显著优势，如表1所示。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图11

▲表1｜三个操作任务的性能比较。我们报告任务特定的成功率、三个任务的平均成功率和SR@1。每个数字代表表2中三种评估设置的平均SR。

所有模型都在相同的机器人数据集上进行微调，确保了评估的公平性。

RynnVLA-001在平均成功率上相比最强基线提升了20.2个百分点。

不同评估场景下的稳定表现

表2展示了模型在不同评估设置下的详细性能。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图12

▲表2｜三种不同评估设置的性能比较。单目标操作是指桌面上只有一个目标物体的设置。多目标操作意味着桌面上存在多个目标物体。带有干扰物的指令跟随是指目标物体和干扰物体同时存在于桌面上的测试情况。

值得注意的是，当场景复杂度增加时，基线模型的性能出现明显下降。

GR00T N1.5在多目标操作场景下成功率降至46.7%，Pi0在有干扰物的场景下成功率跌至60.0%。

相比之下，RynnVLA-001在所有场景下都保持了稳定的高性能表现。

消融实验

系统性的消融实验验证了架构设计的每个关键组件。表3展示了不同预训练策略的效果。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图13

▲表3｜预训练权重在三种评估设置上的有效性。我们用四种不同的初始化权重训练了RynnVLA-001的四个变体。我们报告三个任务的成功率、平均成功率和SR@1。

从零开始训练的模型几乎无法完成任何任务，平均成功率仅为4.4%。

仅使用Chameleon预训练权重的模型达到50.0%的平均成功率；

通过第一阶段视频预训练，性能显著提升至84.4%；

加入第二阶段轨迹感知建模后，最终模型达到90.6%的优异表现。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图14

深入分析

视频生成预训练的可视化效果

图4展示了第一阶段预训练得到的视频生成模型的效果。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图15

▲图4｜视频生成预训练的可视化。给定输入图像和文本提示，I2V模型被训练来预测接下来的7帧。我们的预训练视频生成模型能够生成合理的运动，同时保持与输入图像的一致性。

给定输入图像和文本提示，模型能够生成具有合理运动轨迹且与输入图像保持一致性的后续7帧图像。

虽然生成的帧间变化相对细微，但这种程度的视觉动态建模已经足以为后续的VLA训练提供有效的预训练基础。

双摄像头系统的功能分析

研究者通过精心设计的实验分析了前置摄像头和手腕摄像头的不同功能，如图5所示。

阿里达摩院用 1200 万第一视角视频打底，新成果 RynnVLA-001 大幅碾压主流模型！图16

▲图5｜前置摄像头粗略定位功能分析。(a) 在正常双摄像头设置下，机器人成功拾取草莓。(b) 前置摄像头被遮蔽，只保留腕部摄像头功能。(c) 如果目标在腕部摄像头初始视野范围内，机器人仍可完成任务。然而，当目标在腕部摄像头视野之外(左侧)时，任务成功率从80%(4/5)降至0%，表明前置摄像头对于引导机器人到达目标粗略位置至关重要。

实验结果表明，前置摄像头主要负责粗略定位功能。