突破机器人空间感知瓶颈！中山大学与拓元智慧团队提出TAVP框架

近期，中山大学和拓元智慧团队联合提出Task-Aware View Planning（TAVP）框架，针对当前视觉-语言-动作（VLA）模型在机器人多任务操控中存在的3D感知局限与任务干扰问题，通过融合动态视角规划与任务感知特征提取，显著提升了机器人在复杂场景下的动作预测准确性与任务泛化能力。

相关研究成果在RLBench基准测试的18项操控任务中展现出超越现有固定视角方法的性能。

论文标题：Learning to See and Act: Task-Aware View Planning for Robotic Manipulation
作者：Yongjie Bai, Zhouxia Wang, Yang Liu, Weixing Chen, Ziliang Chen, Mingtong Dai, Yongsen Zheng, Lingbo Liu, Guanbin Li, Liang Lin
项目主页：https://hcplab-sysu.github.io/TAVP

一、研究背景：固定视角与共享编码成机器人多任务操控关键瓶颈

当前主流的机器人VLA模型（如OpenVLA、π0.5等）多依赖单一或固定视角(相机相对机器人的位置不变)观测与共享视觉编码器，在复杂场景中面临两大核心挑战：

3D感知不完整：固定视角易导致目标物体或机械臂末端遮挡，例如“将糖放入橱柜”任务中，前视摄像头仅能捕捉橱柜，肩视摄像头仅能看到机械臂抓取的糖，造成场景理解缺失与动作预测失误；
任务干扰严重：共享编码器在处理视觉与语义差异大的任务（如“拿起苹果”与“打开抽屉”）时，特征会相互纠缠，限制模型在多任务场景下的泛化能力与扩展性。

为解决上述问题，研究团队提出TAVP框架，从“动态感知视角”与“任务专属编码”两大维度重构机器人操控的视觉-动作链路。

二、核心创新：双模块突破技术瓶颈，实现“感知-动作”协同优化

TAVP框架的核心在于两大创新模块——多视角探索策略（MVEP）与任务感知混合专家编码器（TaskMoE），并通过三阶段训练策略实现模块协同优化，具体设计如下：

1.多视角探索策略（MVEP）：动态捕捉“关键视角”，解决3D感知遮挡问题

针对固定视角的局限性，MVEP模块通过强化学习训练视角探索策略，能基于场景全局点云主动选择最优的虚拟摄像头位姿并进行重渲染，获取更加丰富的二维图像，核心设计包括：

视角参数化：采用“Look-at模型”将摄像头位姿表示为5维向量（球坐标下的方位角、仰角、距离及上向量方向），确保视角在合理范围内可解释与优化；
高效策略训练：引入“伪环境交互机制”，利用离线专家数据与预训练模型生成参考损失，避免物理环境交互的高时间成本；同时设计三重奖励函数（任务损失差、热力图置信度、视角多样性），引导策略选择覆盖目标物体与机械臂末端的关键视角；
动态重渲染：将最优视角重渲染为2D图像，为后续特征提取提供更完整的场景信息，有效缓解遮挡导致的感知缺失问题。

2.任务感知混合专家编码器（TaskMoE）：解耦任务特征，消除多任务干扰

为解决共享编码器的任务干扰问题，TaskMoE模块通过“动态专家路由”与“解耦门控”实现任务专属特征提取：

跨模态专家路由：不依赖单一任务ID，而是融合语言指令与场景视觉信息，通过交叉注意力与FiLM层生成上下文感知特征，动态选择适配当前任务的专家编码器；
解耦门控机制：设置少于任务数量的门控（实验中8个门控对应18项任务），让语义相似任务（如“打开底层抽屉”与“将物品放入底层抽屉”）共享门控以实现参数复用，语义差异任务则使用独立门控，避免特征纠缠；
稀疏激活：每个任务仅激活Top-2专家，在保证特征特异性的同时降低计算成本，提升模型效率。

3. 三阶段训练策略：实现“感知-动作”端到端协同

TAVP采用分阶段训练确保模块协同与性能稳定：

固定视角预训练：使用前视、左肩、顶视三个固定视角训练基础模型，优化热力图定位、机械臂旋转、夹爪状态等损失，为后续模块提供基础参数；
MVEP策略优化：冻结基础模型，通过PPO算法训练MVEP，利用伪环境交互与三重奖励函数优化视角选择策略；
全模型微调：固定MVEP，微调TaskMoE与动作预测网络，确保视角探索与动作生成的适配性，最终实现“看到（动态视角）-理解（任务特征）-行动（精准动作）”的闭环。

三、实验验证：18项RLBench任务性能超越，泛化与效率兼顾

研究团队在RLBench基准测试的18项多任务操控场景（涵盖“关罐子”“插钉子”“整理餐具”等）中开展全面实验，验证TAVP的性能优势：

1. 主任务性能：平均成功率超现有基线， occlusion任务提升显著

对比RVT2、ARP、ARP+等固定视角基线模型，TAVP在18项任务中平均成功率达到86.6%；在易受遮挡的任务中表现尤为突出。

2. 消融实验：核心模块不可或缺

通过消融实验验证各模块的必要性，如下表所示：

移除TaskMoE后，平均成功率降至85.6%，证明任务感知编码对多任务泛化的重要性；
用随机视角替代MVEP后，平均成功率骤降至8.9%，凸显动态视角规划是性能提升的关键。

3.泛化与效率分析：zero-shot能力提升，推理成本可控

zero-shot泛化：在未训练的“打开抽屉”任务中，TAVP成功率达12.0%，而无TaskMoE的模型成功率为0，证明TaskMoE能将已知任务知识迁移到新任务；
效率平衡：尽管动态视角重渲染增加了计算成本，但TAVP平均推理时间仅0.436秒，较ARP+（0.394秒）仅增加10.7%，通过采样加速与摄像头缓存实现性能与效率的平衡。

4.真实世界鲁棒性测试：诸多场景超越基准模型

在“采摘葡萄”的鲁棒性测试中，严重遮挡被确认为导致系统失败的主要原因。我们在每类实验中报告了10 trails的成功率。

实验结果显示，TAVP方法的整体适应能力显著优于DP方法。在已见场景下，两者表现接近；但当面对未知背景、物体，TAVP的成功率远高于DP。

此外，研究团队在真实机器人平台（Dobot Nova2）上验证了TAVP的实用性，在“堆叠碗碟”“抓取葡萄”“按压按钮”等多项任务中均实现稳定执行，显著超越Diffusion Policy，进一步证明其在真实场景的适配性。下表展示了其中5项任务与DP比较的定量结果，在每类任务中报告了10 trails的成功率。下图展示了部分真实机器人执行过程的可视化结果，表现出一定的鲁棒性和泛化性。

四、研究意义与未来方向

TAVP框架的提出为机器人多任务操控提供了新范式：通过动态视角规划突破3D感知局限，通过任务感知编码消除多任务干扰，首次实现“任务引导视角选择”与“视角适配动作预测”的协同优化。该成果不仅在RLBench基准测试中刷新性能，更为家庭服务机器人、工业协作机器人等复杂场景应用提供了技术支撑。

研究团队表示，未来将进一步优化两方面：一是降低反光/透明物体对全局点云重建的影响，提升真实场景鲁棒性；二是探索多传感器融合（如触觉、力觉），进一步扩展机器人操控的任务边界。目前，研究团队已开源项目与视觉结果，为机器人学习领域提供可复用的技术工具。

突破机器人空间感知瓶颈！中山大学与拓元智慧团队提出TAVP框架图11