学会see和act:机器人操作中的任务感知视角规划

具身智能之心 2025-08-14 08:00

点击下方卡片,关注“具身智能之心”公众号


作者丨Yongjie Bai等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

研究背景与动机

现有视觉-语言-动作(VLA)模型在多任务机器人操作中,常依赖固定视角和共享视觉编码器,这会限制3D感知能力并引发任务干扰,影响鲁棒性和泛化性。

固定视角在复杂场景中问题突出:在杂乱或动态环境中,固定相机易导致目标物体或末端执行器被遮挡,使场景理解不完整,进而导致动作预测不准确。例如“把糖放进橱柜”的任务中,固定摄像头的前视图可能只拍到橱柜,左右肩视图只拍到被夹持的糖,无法同时覆盖关键信息,可能导致操作失败。

共享编码器的局限同样明显:即使是语言条件的 Transformer 方法(如 RVT、RVT-2),其共享编码器在处理视觉和语义差异大的任务(如“摘苹果”与“开抽屉”)时,会因任务干扰限制模型在多任务中的泛化性和扩展性。

核心方法:TAVP 框架

为解决上述问题,我们提出任务感知视图规划(TAVP)框架,整合主动视图规划与任务特定表征学习,核心包括 TaskMoE 模块和 MVEP 策略,整体流程见 Figure 2。

资讯配图

TaskMoE:任务感知混合专家模块

针对多任务学习中复杂操作任务的异质性,设计 TaskMoE 模块,通过两个关键创新提升多任务准确性和泛化性(Figure 3):

资讯配图
  1. 动态专家路由机制:不依赖单一任务标识符,而是融合指令和场景线索引导专家选择。通过跨模态模块的交叉注意力机制建模指令与视觉信息的交互,再经 Feature-wise Linear Modulation(FiLM)层与任务标识符融合,实现更自适应的任务敏感专家选择。

  2. 解耦门控策略:将路由门数量()与任务总数()解耦(),促进语义相似任务的参数共享,同时隔离语义差异大的任务路由。例如“打开抽屉”类任务可共享同一门控,而与“转动水龙头”等差异大的任务使用不同门控,增强对未见任务的泛化性。

MVEP:多视角探索策略

旨在选择能最大化捕获操作目标相关信息区域的 K 个视角,提升机器人动作预测准确性:

  1. 输入与表征:以重建的点云和 RGB 特征为输入,拼接为,经多层感知器(MLP)预测 K 个相机姿态参数。

  2. 相机姿态参数化:采用“look-at”模型,通过球坐标解耦相机位置和方向,每个相机姿态用 5 维向量表示,其中定义相机中心相对原点的球坐标,定义上向量方向。

  3. 可微分采样:将相机姿态参数建模为高斯分布样本,网络输出均值和对数标准差,通过重参数化技巧采样:

再用 sigmoid 函数将采样姿态约束在球坐标的有效范围内。

训练策略

训练过程分三阶段:

  1. 阶段1:训练 TAVP 的固定视角变体,使用前、左、顶三个默认视角。损失函数包括:

其中分别为粗/细接地模块热图的交叉熵损失,为末端执行器旋转损失,分别为 gripper 状态和碰撞指示的二分类损失。

  1. 阶段2:优化 MVEP,以阶段1训练的固定视角模型为基准,采用 PPO 算法。引入伪环境交互机制减少物理环境交互成本,定义三个奖励项:

  • 任务损失奖励:,其中为基准模型损失,为动态视角下的损失
  • 置信度奖励:,基于细接地模块热图的负平均熵
  • 多样性奖励:,基于相机位置的平均 pairwise 余弦距离 总奖励为各归一化项的加权和:
  • 阶段3:微调除 MVEP 外的整个 TAVP 模型,使用与阶段1相同的损失函数。

  • 实验结果

    在 RLBench 的 18 个任务上进行实验,验证 TAVP 的有效性。

    主要结果

    与采用固定视角的密集模型(RVT2、ARP、ARP+)相比,TAVP 在所有任务中成功率更高。在易受遮挡或需细粒度感知的任务(如“放进橱柜”“插入钉子”)中,成功率提升达 56%;即使在较简单任务(如“关罐子”“滑动方块”)中,也有 4% 的提升。平均成功率从 ARP+ 的 84.9% 提升至 86.7%,证明主动视图规划与任务感知特征路由的协同作用(Table 1)。

    资讯配图

    消融实验

    Table 2 显示:

    • 移除 TaskMoE 后,平均成功率从 86.67% 降至 85.56%,说明其在多任务表征学习中的重要性
    • 用随机视角替代主动探索视角后,成功率仅 8.89%,证明任务感知视图规划是性能提升的主要因素。
    资讯配图

    敏感性分析

    • 视角数量(K):在径向约束(0.75∼1.3m)下,K 从 2 增至 4 时,平均成功率从 27.2% 提升至 55.2%,尤其在“把钱放进保险箱”等易遮挡任务中提升显著(Table 3)。
    资讯配图
    • 径向约束(r):相比基准范围(0.75∼1.3m),更紧凑的约束(0.90∼1.04m)使平均成功率从 49.6% 提升至 56.0%,而更宽松的约束(0.60∼1.56m)导致性能轻微下降(Table 3)。

    效率与泛化分析

    • 性能-效率权衡:TAVP 平均成功率(86.67%)高于 ARP+(84.90%),推理延迟增加约 10.7%(0.436s vs 0.394s),平衡了性能与效率(Table 4)。
    资讯配图
    • 零样本泛化:TaskMoE 显著提升对未见任务的泛化性。在“打开抽屉”任务中,带 TaskMoE 时成功率 12.0%,无 TaskMoE 时为 0;在已见任务中,带 TaskMoE 平均成功率(49.6%)是无 TaskMoE(24.0%)的两倍多(Table 5)。
    资讯配图

    参考

    [1]Learning to See and Act: Task-Aware View Planning for Robotic Manipulation

    资讯配图

    声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
    机器人
    more
    快讯|浙大四足机器人破吉尼斯世界纪录;英伟达推出专为机器人设计的新Cosmos世界模型;西工大新型电活性聚合物的多功能机器人等
    为了机器人一代 |CyberRobo的WRC2025之旅
    全球首个人形机器人通用多模态视觉感知系统,Humanoid Occupancy 建立多模态环境理解新范式
    2025年中国具身机器人行业市场深度分析:产业链、下游分析、市场规模及竞争格局
    TechWeb早报:马斯克、奥特曼网上激烈骂战,苹果AI伴侣机器人2027年登场
    【参会指南】马来西亚·第七届国际移动机器人集成应用大会
    从世界机器人大会看具身智能发展:“望闻问切”或只是开始
    智元机器人发布行业首个机器人世界模型开源平台——Genie Envisioner
    美版宇树|全球第一个人形机器人叠衣服,不只是机械臂!力证VLA模型?
    学会see和act:机器人操作中的任务感知视角规划
    Copyright © 2025 成都区角科技有限公司
    蜀ICP备2025143415号-1
      
    川公网安备51015602001305号