学会see和act：机器人操作中的任务感知视角规划

点击下方卡片，关注“具身智能之心”公众号

作者丨Yongjie Bai等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

研究背景与动机

现有视觉-语言-动作（VLA）模型在多任务机器人操作中，常依赖固定视角和共享视觉编码器，这会限制3D感知能力并引发任务干扰，影响鲁棒性和泛化性。

固定视角在复杂场景中问题突出：在杂乱或动态环境中，固定相机易导致目标物体或末端执行器被遮挡，使场景理解不完整，进而导致动作预测不准确。例如“把糖放进橱柜”的任务中，固定摄像头的前视图可能只拍到橱柜，左右肩视图只拍到被夹持的糖，无法同时覆盖关键信息，可能导致操作失败。

共享编码器的局限同样明显：即使是语言条件的 Transformer 方法（如 RVT、RVT-2），其共享编码器在处理视觉和语义差异大的任务（如“摘苹果”与“开抽屉”）时，会因任务干扰限制模型在多任务中的泛化性和扩展性。

核心方法：TAVP 框架

为解决上述问题，我们提出任务感知视图规划（TAVP）框架，整合主动视图规划与任务特定表征学习，核心包括 TaskMoE 模块和 MVEP 策略，整体流程见 Figure 2。

TaskMoE：任务感知混合专家模块

针对多任务学习中复杂操作任务的异质性，设计 TaskMoE 模块，通过两个关键创新提升多任务准确性和泛化性（Figure 3）：

动态专家路由机制：不依赖单一任务标识符，而是融合指令和场景线索引导专家选择。通过跨模态模块的交叉注意力机制建模指令与视觉信息的交互，再经 Feature-wise Linear Modulation（FiLM）层与任务标识符融合，实现更自适应的任务敏感专家选择。
解耦门控策略：将路由门数量（）与任务总数（）解耦（），促进语义相似任务的参数共享，同时隔离语义差异大的任务路由。例如“打开抽屉”类任务可共享同一门控，而与“转动水龙头”等差异大的任务使用不同门控，增强对未见任务的泛化性。

MVEP：多视角探索策略

旨在选择能最大化捕获操作目标相关信息区域的 K 个视角，提升机器人动作预测准确性：

输入与表征：以重建的点云和 RGB 特征为输入，拼接为，经多层感知器（MLP）预测 K 个相机姿态参数。
相机姿态参数化：采用“look-at”模型，通过球坐标解耦相机位置和方向，每个相机姿态用 5 维向量表示，其中定义相机中心相对原点的球坐标，定义上向量方向。
可微分采样：将相机姿态参数建模为高斯分布样本，网络输出均值和对数标准差，通过重参数化技巧采样：

再用 sigmoid 函数将采样姿态约束在球坐标的有效范围内。

训练策略

训练过程分三阶段：

阶段1：训练 TAVP 的固定视角变体，使用前、左、顶三个默认视角。损失函数包括：

其中、分别为粗/细接地模块热图的交叉熵损失，为末端执行器旋转损失，和分别为 gripper 状态和碰撞指示的二分类损失。

阶段2：优化 MVEP，以阶段1训练的固定视角模型为基准，采用 PPO 算法。引入伪环境交互机制减少物理环境交互成本，定义三个奖励项：

任务损失奖励：，其中为基准模型损失，为动态视角下的损失
置信度奖励：，基于细接地模块热图的负平均熵
多样性奖励：，基于相机位置的平均 pairwise 余弦距离总奖励为各归一化项的加权和：。

阶段3：微调除 MVEP 外的整个 TAVP 模型，使用与阶段1相同的损失函数。

实验结果

在 RLBench 的 18 个任务上进行实验，验证 TAVP 的有效性。

主要结果

与采用固定视角的密集模型（RVT2、ARP、ARP+）相比，TAVP 在所有任务中成功率更高。在易受遮挡或需细粒度感知的任务（如“放进橱柜”“插入钉子”）中，成功率提升达 56%；即使在较简单任务（如“关罐子”“滑动方块”）中，也有 4% 的提升。平均成功率从 ARP+ 的 84.9% 提升至 86.7%，证明主动视图规划与任务感知特征路由的协同作用（Table 1）。