传统的机器人操作系统普遍采用分阶段的开发模式——
数据收集→模型训练→任务评估
每个环节都需要定制化设备、人工整理数据,还要针对具体任务反复调试,这种碎片化的架构增加了开发复杂度,延长了迭代周期,也限制了系统的可扩展性。
最近,智元Genie团队提出全新平台——Genie Envisioner,首次将未来帧预测、策略学习与仿真评估等功能,整合进一个以视频生成为核心的统一架构中。该平台构建出可推理、可交互的世界模型,使机器人能够实现从感知到决策、再到执行的端到端闭环操作,为机器人操控任务提供了前所未有的基础设施支持。
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
技术架构
Genie Envisioner可以分解为4个核心部分:
GE-Base:该部分是Genie Envisioner架构的感知基础,可以根据指令、视觉观测和历史记忆来“脑补”出未来机器人执行的视频
GE-Act:该部分是Genie Envisioner的动作生成模块,它将从GE-Base“脑补”的视频中提取出合理的执行动作
GE-Sim:该模块是一个仿真器,用于闭环评估和可控数据生成
EWMBench:世界模型的标准化评估套件
接下来,我们详细来看Genie Envisioner的四大核心模块:
GE-Base
GE-Base是整个平台的"地基",它采用视频扩散模型(Video Diffusion Model),并在AgiBot-World-Beta数据集上进行训练。
这个数据集包含了100多万个真实世界机器人操作episode(总时长近3000小时),涵盖household任务(做饭、擦桌子)和工业任务(包装、搬运)。
简单来说,这个模型的作用就是以语言指令和多视角视觉观测(头、左手、右手摄像头)为条件,自回归地生成未来的视频片段,以帮助GE-Act从中生成具身动作轨迹。所以整个过程可以表示成:
左边其实就是预测的未来t步的视频,是GE-Base的世界模型,可以无缝集成多种基于扩散Transformer(DiT)的视频生成模型;
参数就是长期历史帧构建的稀疏记忆,分别就是几个摄像头采集的图像和用户指令了。
这个公式表达的是:利用世界模型,结合稀疏记忆、用户指令、多图像观测信息,生成预测视频的过程。
▲图1|这是GE-Base世界基础模型的概述。(a)部分是自回归视频生成过程示意图。给定多视图视觉条件(包括初始观测和稀疏记忆),以及相应的噪声和位置嵌入,模型会在语言指令的条件下生成下一个多视图视频块。(b)部分是一个专用的因果块可促进不同视图之间的信息交换,确保在多视图视频块生成过程中实现空间一致性。©️【深蓝具身智能】编译
训练
GE-Base的训练采用了两阶段策略:
第一阶段:多分辨率时序自适应 (Multi-Resolution Temporal Adaptation)
首先在3-30Hz的多分辨率采样频率下进行时序适应训练(GE-Base-MR),使模型对不同运动速度具有鲁棒性;
第二阶段:低频策略对齐 (Low-Frequency Policy Alignment)
随后在5Hz固定采样率下进行策略对齐微调(GE-Base-LF),与下游动作建模的时序抽象保持一致,为后续的策略学习奠定基础。
代码实现
在configs/ltx_model/video_model.yaml中配置GE-Base的训练参数:
data:
train / val:
# 数据集的根目录路径
data_roots: ["path/to/agibot-world/AgiBotWorld-Beta", ]
# 任务信息的存储路径,包含每条数据对应的自然语言指令、子任务标注等语义信息,用于将视频序列与任务指令对齐
task_info_root: ["path/to/agibot-world/AgiBotWorld-Beta/task_info", ]
# 数据集所属的领域标签(此处为"agibotworld"),用于区分不同来源的数据集(如其他机器人平台或场景的数据),方便后续扩展多领域训
domains: ["agibotworld", ]
# 数据集元信息(如视频长度、帧速率、任务类型等)的缓存路径。首次加载数据时会生成这些元信息,缓存后可加速后续训练的启动速度。
dataset_info_cache_path: "path/to/save/dataset_meta_info_cache"
# 预训练模型路径
pretrained_model_name_or_path: PATH/TO/PRETRAINED_WEIGHTS_OF_VAE_AND_TOKENIZER
# 生成视频的扩散模型配置
diffusion_model:
model_path: PATH/TO/GE_base_{version}.safetensors
训练GE-Base的脚本命令:
bash scripts/train.sh main.py configs/ltx_model/video_model.
▲图2|GE-Base训练过程概述。GE-Base在AgiBot-World-Beta数据集上进行预训练,该数据集是一个大规模的真实世界双臂机器人操作数据集,包含100万个与指令对齐的多视图视频序列。训练第一阶段多分辨率时序自适应 (Multi-Resolution Temporal Adaptation) ,利用高帧率序列和混合采样策略将通用视频生成能力迁移到机器人领域,以增强鲁棒性。第二阶段:低频策略对齐 (Low-Frequency Policy Alignment) ,目的是使模型与下游动作策略训练所需的时间分辨率保持一致。在整个过程中,视频编码器和视频解码器保持固定。©️【深蓝具身智能】编译
GE-Act
GE-Act负责把GE-Base生成的视频潜变量,转化为机器人能执行的具体动作轨迹。
它的设计非常巧妙,关键的创新在于异步推理机制,即GE-Act与GE-Base的视觉主干并行。
GE-Base视频DiT以5Hz的频率执行单步流匹配去噪,生成的视觉潜在标记被缓存复用;而GE-Act动作模型则以30Hz的高频运行,基于缓存的视觉表征进行5步去噪。
这种"慢-快"双层优化策略,实现了视觉处理与动作生成的高效解耦,不仅显著降低了视频潜在空间的维度计算开销,更确保系统能在机载NVIDIA RTX 4090 GPU上,以200毫秒的延迟完成54步动作轨迹推理,为实时机器人控制提供了坚实的技术支撑。
▲图3|这是GE-Act世界动作模型概述。GE-Act通过纳入一个并行动作分支对GE-Base基础模型进行了扩展,该分支可将视觉潜在表征转化为结构化的动作策略轨迹。它采用与GE-Base相同的模块设计和深度,但减小了隐藏维度以提高效率。视觉潜在特征通过交叉注意力机制整合到动作路径中,确保动作的语义接地。最终的动作预测通过基于扩散的去噪流匹配管道生成,将带噪声的动作预测优化为连贯的动作轨迹。©️【深蓝具身智能】编译
训练
GE-Act的训练体系采用三阶段递进式设计:
(1)在动作预训练阶段,通过优化视觉主干网络,将视频序列的视觉表征精准投射至潜在的动作策略空间;
(2)进入任务特定视频适应阶段后,仅更新世界模型的视觉生成组件,使其适配特定任务的视觉特征;
(3)最终在面向特定任务的动作微调阶段,对包含GE-Base主干与动作模块的完整模型进行专属训练,以捕捉细粒度的控制动态。
代码实现
(1)数据预处理:
参考lerobot官方文档,构建数据集格式,结合AgiBot-World的convert_to_lerobot计算数据集中的动作的静态信息(标准差),然后填到data/utils/statistics.py里面
再进行GE-Act的配置文件(configs/ltx_model/policy_model_lerobot.yaml),关键设置:
(2)训练 GE-Act 的命令:
bash scripts/train.sh main.py configs/ltx_model/policy_model_
▲图4|GE-Act训练流程概述。GE-Act源自GE-Base基础模型,其训练过程分为三个阶段,利用了AgiBot-World-Beta数据集中的文本-视频-策略三元组。第一阶段进行动作空间预训练,对视觉主干网络进行优化,以将视频序列投射到潜在的动作策略空间中。随后,执行两阶段的任务适配流程,使模型专门适用于各种下游任务。在此阶段中,首先利用特定任务的视觉数据对视频编码器进行适配,之后再利用相应的控制信号对动作头进行微调。©️【深蓝具身智能】编译
GE-Sim
在真实世界训练机器人成本高、风险大(比如打翻热水),GE-Sim就是一个动作条件神经模拟器,它能让机器人在虚拟世界"练手"。
该模块包含了两个关键组件:
(1)Pose2Image条件:将7维末端执行器姿态(位置、姿态、夹爪状态)投影到图像空间,通过相机标定生成空间对齐的姿态图像;
(2)运动向量条件:计算连续姿态间的运动增量,编码为运动令牌并通过交叉注意力注入到每个DiT块中。
▲图5|GE-Sim世界模拟器概述。(a)GE-Base被转化为一个动作条件视频生成器,用于在给定预测动作的情况下模拟机器人行为。空间姿态条件被投射到图像空间,并与历史视觉输入融合,而时间运动增量则与参考图像拼接以保持风格一致性,并通过交叉注意力注入生成模型。(b)GE-Sim通过生成动作条件的视频滚动序列,实现闭环策略评估和可控数据生成,支持在不同视觉环境下遵循指令并进行一致的轨迹重放。©️【深蓝具身智能】编译
EWMBench
为了评估面向具身任务的世界模型质量,团队在GE核心组件之外还开发了EWMBench,EWMBench是一套标准化评估套件,它从三个维度严格打分:
(1)视觉保真度:判断生成的视频画面是否清晰、多视角是否一致。
(2)物理一致性:判断动作是否符合物理规律?比如抓起物体后不会凭空漂浮。
(3)指令-动作对齐:判断是否真的按指令完成任务?比如"红色糖果用红色印章"不会搞错。
更重要的是,它的评分和人类判断高度一致,避免了"机器觉得好但实际用不了"的问题。

实验验证与部署
部署
模型预测动作验证命令:
bash scripts/infer.sh main.py \
configs/ltx_model/policy_model_lerobot.yaml \
path/to/trained/checkpoint.safetensors \
path/to/save/outputs \
DATASETNAME
项目提供了一个简单的部署脚本,启动一个websocket服务和基于openpi的客户端,web服务接收客户端的观测信息后,调用模型完成推理。
启动GE-Act服务器:
$IP_ADDRESS_OF_SERVER为实际IP,$DOMAIN_NAME为数据集名称 修改
bash web_infer_scripts/run_server.sh
启动客户端:
bash web_infer_scripts/run_simple_client.sh
实验效果示例
通过GE-Act在AgiBot G1上实现真实世界机器人操作的视觉化展示

由GE-Base在Agilex Cobot Magic机器人平台上实现的多视角视频生成

GE-Sim实现动作条件视频生成的可视化

针对机器人操作的视频世界模型的全面评估

▲图6|借助EWM-Bench,系统性地评估了一系列源自最先进通用视频生成和具身世界建模方法的视频世界模型。所有型都在统一的文本与图像到视频生成的范式下接受评估。评估涵盖了多个层面,包括场景、运动和语义,以捕捉视觉逼真度、时间连贯性和在各类实际机器人操作任务中的语义基础。©️【深蓝具身智能】编译

总结
Genie Envisioner的意义,在于它为机器人操作提供了一个统一、可扩展的基础平台。基于这个平台,机器人能像人类一样"举一反三",通过少量数据适应新任务、新环境。
Genie Envisioner,正让"通用机器人助手"的梦想越来越近。
编辑|木木伞
审编|具身君
论文题目:Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
论文地址:https://arxiv.org/pdf/2508.05635
项目主页:https://genie-envisioner.github.io/
代码地址:https://github.com/AgibotTech/Genie-Envisioner
工作投稿|商务合作|转载:SL13126828869(微信号)
>>>现在成为星友,特享99元/年<<<

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇
商务合作扫码咨询
机器人、自动驾驶、无人机等研发硬件
关于我们:深蓝学院北京总部于2017年成立,2024年成立杭州分公司,2025年成立上海分公司。
学院课程涵盖人工智能、机器人、自动驾驶等各大领域,开设近100门线上课程。拥有多个实训基地助力教学与科研,多台科研平台硬件设备可供开展算法测试与验证。
服务专业用户数达11万+(人工智能全产业链垂直领域的高净值用户),硕博学历用户占比高达70%。已与多家头部机器人企业、头部高校建立深度合作,深度赋能教育 、企业端人才培养与匹配。
工作投稿|商务合作|转载:SL13126828869


点击❤收藏并推荐本文