PhysicalAgent:迈向通用认知机器人的基础世界模型框架

具身智能之心 2025-09-21 00:00

点击下方卡片,关注“具身智能之心”公众号


作者丨 Artem Lykov等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

出发点与动机

当前机器人操控领域存在两大关键瓶颈:一是主流视觉-语言-动作(VLM)模型(如RT-1/RT-2、OpenVLA)依赖任务与平台特定微调,换机器人或环境后鲁棒性骤降;二是基于世界模型的方法(如DreamGen)需依赖专门训练的预测模型(如Cosmos Predict),且训练数据需精心筛选机器人-场景对,通用性受限。

为解决这些问题,有研究团队提出PhysicalAgent——一个融合迭代推理、扩散视频生成与闭环执行的机器人操控框架。其核心思路是:用基础模型(视觉语言模型、扩散视频模型)承担感知与推理的“重活”,仅保留轻量级机器人适配层负责执行,最终实现跨形态、跨任务的通用操控,同时通过迭代修正提升执行鲁棒性。

资讯配图

架构设计:泛化性的核心逻辑

该框架的核心原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型(计算开销小、数据需求低)。这种设计的合理性源于三点:

  1. 视频生成模型的天然优势:主流视频生成模型(如Wan 2.2、Seedance 1.0 Pro)预训练了海量多模态数据(含视频、第一视角活动记录),已隐含对物理过程、物体交互的理解;且支持API调用,无需本地训练即可快速集成,模型更新时直接替换即可。
  2. 人类式推理的对齐:视频生成模型能通过文本指令生成“执行过程的视觉想象”,与人类思考动作的方式一致——无需了解机器人内部结构,仅通过指令即可生成合理动作的视觉描述。
  3. 跨形态泛化的实现:如figure 2所示,同一感知-推理 pipeline 能为三种不同形态的机器人(双臂UR3、Unitree G1人形、仿真GR1)生成不同操控任务(如捡球、开笔记本、传递保温杯)的视频,无需针对特定机器人重训,直接证明了架构的跨形态适配能力。
资讯配图

视觉语言模型(VLM)的grounding推理作用

VLM是该框架的“认知核心”,通过多次调用实现“指令-环境-执行”的grounding,而非单次规划。具体作用分为四步:

  1. 任务分解:接收自然语言指令与初始场景图像后,将高level任务拆分为原子子任务(如“抓取物体”“稳定容器”“插入插槽”),搭建抽象规划与具体执行的桥梁。
  2. 场景上下文描述:为每个子任务生成带约束的文本提示(需包含物体空间关系、物理约束、机器人适配性),用于指导后续扩散模型生成可行的动作视频。
  3. 执行监控与修正:每次执行后,VLM对比“执行前-执行后”的图像,判断子任务完成情况,并输出三种决策:继续执行下一个子任务、重试当前动作、返回高层重新规划——这种闭环逻辑是长任务鲁棒性的关键。
  4. 模型无关性:框架不绑定特定VLM,实验中主要使用Gemini Pro Flash,但GPT-4o、Claude-3.5 Sonnet、QwenVL等模型均可直接替换,降低对单一模型的依赖。

扩散基世界模型:动作生成的新范式

该框架的核心创新是将“动作生成”重构为“条件视频合成”,而非传统的直接学习控制策略。具体逻辑如下:

  1. 核心原理:使用现成的“图像-视频”基础模型(实验中用Wan 2.2),输入机器人当前相机帧与文本指令(来自VLM的子任务描述),生成物理合理的短动作视频——视频需包含物体动态、接触事件、场景因果关系(如“抓取杯子→移动到桌面”的连贯过程)。
  2. 与现有方法的差异:对比DreamGen等依赖专门预测模型的方法,该框架直接使用通用“图像-视频”模型,无需为特定机器人-场景对训练模型,大幅降低泛化门槛。
  3. 三大优势
  • 降低部署成本:新机器人仅需训轻量级适配层,无需重训“图像-视频”模型;
  • 快速迭代:当更优的“图像-视频”模型(如Seedance 1.0 Pro、Google Veo 2)出现时,直接替换即可,无需改动适配层;
  • 可解释性:生成的视频可被人类检查,便于发现安全风险(如“动作可能碰倒物体”),提升人机协作安全性。

机器人适配层:从视频到电机指令的落地

生成的动作视频需转化为机器人能执行的电机指令,这一步是框架中唯一需机器人特定适配的部分,流程如figure 3所示:

资讯配图
  1. 关键点提取:用微调后的YOLO11-Pose模型,从合成视频的每帧中提取机器人关节关键点——以双臂机器人为例,每臂需提取6个关节+1个抓手的关键点,共28个坐标特征;再计算关节间长度(12个特征),最终形成40维特征向量/帧。
  2. 回归器预测电机指令:用“多输出回归器”(基于HistGradientBoostingRegressor,超参数为max_iter=500learning rate=0.1min samples leaf=20early stopping=True)将40维特征映射为低level电机指令。
  3. 适配层训练细节
  • 数据量:每个新机器人仅需约1000个样本,30分钟即可收集完成;
  • YOLO11-Pose训练:预训练后训150轮,batch size=8,图像尺寸=1280,早停耐心=50;优化器参数为lr0=0.01momentum=0.937weight_decay=0.0005,热身3轮;用RTX 4090的4个worker训练,冻结前10层以保留预训练特征;
  • 兼容性:支持第三人称与第一视角相机,适配不同机器人的感知配置。

实验验证:效果与泛化性

实验分两类,分别验证“跨形态/感知模态的泛化性”与“迭代执行的鲁棒性”。

实验1:形态与感知模态研究

  • 目标:验证该框架是否优于任务特定基线,以及跨形态泛化能力。
  • 设置
    • 平台:双臂UR3、Unitree G1人形、仿真GR1;
    • 任务:13个操控任务(如盒子操作、捡球、按按钮、开冰箱等);
    • 基线:ACT、RVT-LF、PerActLF、PerAct2;
    • 流程:每个任务-平台对生成30个视频并执行, success rate按二分类统计。
  • 关键结果
    • 方法影响:ANOVA分析显示,该框架的success rate显著优于基线(F(4,60)=5.04p=0.0014),验证了扩散视频生成思路的有效性;
    • 平台影响:ANOVA显示平台对性能无显著影响(F(2,36)=2.01p=0.1485)——虽G1人形机器人的中位数success rate最高(因与人类数据对齐),但差异未达统计显著水平,说明框架跨形态泛化能力稳定,推翻了“特定形态更优”的初始假设。

实验2:物理机器人的迭代执行

  • 目标:验证迭代“Perceive→Plan→Reason→Act” pipeline在物理场景的鲁棒性。
  • 设置
    • 平台:物理双臂UR3、物理Unitree G1人形;
    • 任务:10个固定操控任务;
    • 流程:生成计划与视频→执行→评估结果→可恢复则重规划,最多10次尝试;
    • 指标:最终success rate、首次尝试success rate、成功所需迭代次数、生存曲线(n次迭代后未完成任务比例)。
  • 关键结果
资讯配图
资讯配图
  • 最终success rate:两个平台均达80%;
  • 首次尝试success rate:UR3为30%,G1为20%;
  • 迭代次数:UR3平均2.25次,G1平均2.75次;
  • 生存曲线:如figure 6所示,前3次迭代后未完成任务比例骤降,4次迭代后几乎所有可完成任务均成功——证明迭代修正能有效弥补首次执行的不足,是提升鲁棒性的核心。

参考

[1]PhysicalAgent: Towards General Cognitive Robotics with Foundation World Models

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 机器人
more
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
ADI两款人形机器人驱控芯片、传感器产品亮相 破解产业规模化落地难题!
8千-10万,京东上20+机器人灵巧手价格一览
智元斩获业内首张人形机器人数据集CR认证,编号“001”
突破技术瓶颈!哈工程水下“海龟”机器人实现厘米级观测!360°灵活观测
100%控股!思灵机器人收购宝马旗下移动机器人公司;人形机器人巨头Figure再融10亿美金!
阿里巴巴的AI战略正在加速加载中 | 区势·AI
登上Science Robotics的中国冠军:HANDSON团队如何用「最聪明」的机器人假肢征服“半机械人仿生奥运会”?
【AI加油站】机器人设计系列十七:《机器人系统设计及应用》:从理论基石到产业应用的深度解析(附下载)
【机器人】3年1000台!全球半导体显示产业首次迎来具身智能机器人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号