Kitchen-R :高层任务规划与低层控制联合评估的移动操作机器人基准

具身智能之心 2025-08-25 08:00

资讯配图

点击下方卡片,关注“具身智能之心”公众号


编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

资讯配图

写在前面&出发点

基准是机器人学和具身AI领域评估进展的核心工具,但当前基准存在显著割裂:高层语言指令遵循类基准常假设低层执行完美,而低层机器人控制类基准仅依赖简单单步指令。这种割裂导致无法全面评估“任务规划+物理执行”均关键的集成系统。

资讯配图

为填补该空白,这里提出Kitchen-R基准——一个在仿真厨房环境中统一评估任务规划与低层控制的新基准。其核心特点包括:

Kitchen-R填补了具身AI研究的关键空白,为语言引导机器人代理提供了更全面、更贴近真实场景的基准测试平台。

领域背景介绍

1)基准的重要性

基准在自然语言处理(如GLUE)、计算机视觉(如Visual Genome)中广泛用于评估模型进展;在机器人领域,基于模拟器的基准(如Behavior-1K)同样常见,兼具模型评估与训练功能,且需准确模拟低层动作以支持真实机器人的结果迁移。

2)现有基准的割裂问题

近年来,大语言模型(LLMs)和视觉语言模型(VLMs)被广泛用于机器人任务规划与指令遵循,但现有基准存在明显缺陷:

3)Kitchen-R的核心价值

Kitchen-R通过“数字孪生厨房+多模态评估”解决上述割裂,具体包括:

4)关键贡献

Kitchen-R基准:提供具身AI研究所需的数字孪生厨房环境与500+语言指令;

基线方法:VLM驱动的任务规划基线与Diffusion Policy低层控制基线;

灵活框架:支持系统组件模块化评估的数据收集与评估体系。

相关工作

现有基准因设计目标不同,难以同时覆盖“高层语言规划+低层物理执行”的联合评估,具体对比如下:

资讯配图

Kitchen-R的定位:融合上述框架优势,实现“规划模块独立评估、控制模块独立评估、全系统集成评估”三位一体,同时支持轨迹日志记录与Isaac Sim的照片级真实模拟。

资讯配图

问题公式化

将移动操作机器人的指令遵循问题拆解为任务规划移动操作两个子问题,明确输入输出与目标。

资讯配图
资讯配图

1)任务规划子问题(高层控制)

  1. 自然语言指令(导航+物体操作任务);
  2. 场景俯视图。
  • 输出:对应的任务计划(如“移动到水槽区→拾取杯子→移动到餐桌区→放置杯子”)。
  • 2)移动操作子问题(低层控制)

    1. 分解后的单步自然语言任务;
    2. 机器人搭载的两个相机视觉信息(夹爪相机+底座中央相机)。
  • 输出:轨迹点序列(预测未来16步动作),每个轨迹点含10个维度:其中:
  • 评估指标

    Kitchen-R针对“离线独立评估”与“在线联合评估”设计了两类指标,确保全面衡量系统性能。

    1)离线独立评估指标

    任务规划:精确匹配率(EM)

    衡量生成计划与真实计划的步骤一致性,字符级完全匹配才算正确步骤

    移动操作:均方误差(MSE)

    衡量预测轨迹与专家轨迹的偏差,平均所有轨迹的MSE作为最终结果,值越小表示控制精度越高

    综合指标(P)

    融合规划与控制性能,值越小表示系统整体表现越好

    2)在线联合评估指标

    在模拟器中实时执行任务,同时评估规划与执行,核心指标为EM成功率(SR),最终合并为指标(M)。

    成功率(SR)

    在线评估流程

    规划模块输入高层指令,生成计划,与真实计划对比计算EM;

    真实计划执行(隔离规划误差),确保公平评估控制模块;

    控制模块执行每个任务,记录SR与完成时间。

    最终联合指标(M)

    Kitchen-R基准核心设计

    Kitchen-R基于Isaac Sim构建模块化框架,支持数据收集、任务执行与评估,核心模块如下:

    1)策略评估器(Policy Evaluator)

    1. 输入:从高层规划器接收分解后的子任务;
    2. 数据交互:从模拟器获取场景数据;
    3. 模块调用:依次触发导航模块与操作模块执行子任务。

    2)导航模块

    负责机器人底座的移动,由路径规划器低层控制器组成。

    路径规划器

    低层控制器(ROS框架+C++实现)

    基于里程计计算位置误差,动态调整速度,核心逻辑:

    资讯配图

    3)操作模块

    负责末端执行器的抓取、放置等动作,核心是RMPs运动控制10阶段有限状态机(FSM)

    (1)RMPs(Riemannian Motion Policies)

    1. 每个任务(如末端执行器位姿、关节配置)定义任务映射、黎曼度量(任务惯性)、期望力(政策行为);
    2. 通过雅可比矩阵将任务空间的映射到关节空间;
    3. 合并得到关节加速度,积分后发送至Isaac Sim的关节控制器。
  • 夹爪控制:2个额外自由度,用归一化位置指令控制开合。
  • (2)10阶段FSM(拾取-放置循环)

    每个阶段对应一个子动作(如接近物体、下降、抓取、提升、运输、释放),阶段间采用余弦混合运动插值确保平滑过渡:插值覆盖末端执行器的位置、高度与姿态,确保动作连续且无突变。

    4)日志模块

    5)监控模块

    实时验证数据质量与动作执行,避免无效轨迹收集:

    6)定制化与随机化

    7)传感器支持

    8)新任务创建

    基于“移动、拾取、放置”三个基础动作,通过配置文件定义:

    1. 基础动作序列(如“移动到点1→拾取物体1→移动到点2→放置物体1”);
    2. 关键点位(如移动的接近点、拾取的物体位姿与偏移量);
    3. 物体列表(背景物体:USD文件夹路径;关键物体:USD路径+抓取偏移量)。

    9)语言指令

    1. 选择场景→选择58个模板中的1个→选择4-8步的计划;
    2. 替换模板中的物体为场景中存在的物体,确保指令可执行;
  • 规划辅助:每个场景提供俯视图,用彩色区域标记物体的“拾取/放置位置”(该颜色信息仅给规划模块,控制模块不可见)。
  • 基线方法

    Kitchen-R提供两类基线,分别对应任务规划与移动操作,为后续研究提供对比基准。

    1)VLM规划基线(基于OmniFusion)

    核心流程

    1. 上下文示例:提供正确计划的示例(因OmniFusion仅预训练单图对话,示例用文本描述替代图像);
    2. 约束生成:限制输出格式,避免生成无法解析的指令。

    性能提升(EM指标)

    资讯配图

    可见,上下文计划示例是提升规划准确性的关键,约束生成可进一步优化。

    2)移动操作基线(基于Diffusion Policy)

    (1)模型结构

    1. 视觉特征:两个相机的图像特征(历史窗口大小=2),通过视觉backbone提取(不同相机backbone不共享权重,训练时学习率更新权重为10%);
    2. 机器人状态:10维状态(末端执行器平移3维、姿态6维、夹爪开合1维),历史窗口大小=2;
  • 特征融合:机器人状态经线性层编码后,与视觉特征拼接为条件序列;
  • 条件机制:用交叉注意力块替代原始FiLM层,嵌入U-Net模型的扩散过程;
  • 输出:预测未来16步的动作轨迹。
  • 资讯配图

    基线验证与结果

    1)验证流程(四步)

    步骤1:定义分布参数

    设定环境初始状态的采样范围:

    步骤2:生成环境配置

    步骤3:创建环境

    基于配置,生成符合OpenAI Gym接口的环境。

    步骤4:执行评估

    2)执行效率

    未来,Kitchen-R可进一步扩展场景复杂度(如多机器人协作、动态环境),推动语言引导的移动操作机器人向更真实的应用场景落地。

    参考

    [1] Mind and Motion Aligned: A Joint Evaluation IsaacSim Benchmark for Task Planning and Low-Level Policies in Mobile Manipulation.


    资讯配图



    声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
    机器人
    more
    消息称四维图新收购鉴智机器人进入最后阶段;传KKR有望收购日产总部大楼;智元发布灵犀X2-W轮式双臂机器人原型
    机器人“大师傅”组团上阵 焊接90吨重的水电机组转轮
    智元团队开新作:首个统一机器人操作的基础平台Genie Envisioner,实现端到端推理
    一家系统集成商IPO终止了;仁新机器人完成A轮融资 | 一周资本大事件
    就在明天!英伟达具身机器人“新大脑”即将揭晓
    柏楚电子、拓斯达等企业发布2025H1业绩报告;上市汽车系统集成商成立机器人全资子公司 | 市场观察
    3分钟了解「机器人关节用什么电机?」:揭秘机器人的「力量之源」!
    成都6家!首批人工智能及机器人应用产业明星企业揭晓
    重磅!浙大最新综述,解码40+年足式机器人技术演进与未来挑战
    小智一周要闻 | 智元机器人全系产品开售;特朗普政府欲入股英特尔
    Copyright © 2025 成都区角科技有限公司
    蜀ICP备2025143415号-1
      
    川公网安备51015602001305号