CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架

机器之心 2025-09-10 19:30
资讯配图


本文的共同第一作者为香港大学 InfoBodied AI 实验室的博士生孙力和吴杰枫,合作者为刘瑞哲,陈枫。通讯作者为香港大学数据科学研究院及电机电子工程系助理教授杨言超。InfoBodied AI 实验室近年来在 CVPR,ICML,Neurips,ICLR 等顶会上有多项代表性成果发表,与国内外知名高校,科研机构广泛开展合作。




出发点与研究背景


在具身智能中,策略学习通常需要依赖场景表征(scene representation)。然而,大多数现有多任务操作方法中的表征提取过程都是任务无关的(task-agnostic):


无论具身智能体要 “关抽屉” 还是 “堆积木”,系统提取的特征的方式始终相同(利用同样的神经网络参数)。


想象一下,一个机器人在厨房里,既要能精准抓取易碎的鸡蛋,又要能搬运重型锅具。传统方法让机器人用同一套 "眼光" 观察不同的任务场景,这会使得场景表征中包含大量与任务无关的信息,给策略网络的学习带来极大的负担。这正是当前具身智能面临的核心挑战之一。


这样的表征提取方式与人类的视觉感知差异很大 —— 认知科学的研究表明,人类会根据任务目标和执行阶段动态调整注意力,把有限的感知资源集中在最相关的物体或区域上。例如:找水杯时先关注桌面大范围区域;拿杯柄时又转向局部几何细节。


那么,具身智能体是否也可以学会 “具备任务感知能力的场景表征” 呢?


资讯配图


创新点与贡献


1. 提出任务感知场景表示框架


我们提出了 HyperTASR,这是一个用于提取任务感知场景表征的全新框架,它使具身智能体能够通过在整个执行过程中关注与任务最相关的环境特征来模拟类似人类的自适应感知。


2. 创新的超网络表示变换机制


我们引入了一种基于超网络的表示转换,它可以根据任务规范和进展状态动态生成适应参数,同时保持与现有策略学习框架的架构兼容性。


3. 兼容多种策略学习架构


无需大幅修改现有框架,即可嵌入到 从零训练的 GNFactor 和 基于预训练的 3D Diffuser Actor,显著提升性能。


4. 仿真与真机环境验证


在 RLBench 和真机实验中均取得了显著提升,验证了 HyperTASR 在不同表征下的有效性(2D/3D 表征,从零训练 / 预训练表征),并建立了单视角 manipulation 的新 SOTA。


HyperTASR 概述


在这项工作中,我们提出了 HyperTASR —— 一个基于超网络的任务感知场景表征框架。它的核心思想是:具身智能体在执行不同任务、处于不同阶段时,应该动态调整感知重点,而不是一直用一套固定的特征去看世界。



换句话说,HyperTASR 让具身智能体在执行任务时,像人类一样 “看得更专注、更聪明”。


任务感知的场景表示 (Task-Aware Scene Representation)


资讯配图


传统的具身智能体操作任务(Manipulation)学习框架通常是这样的:


1. 从观测 资讯配图 提取一个固定的场景表征 资讯配图

2. 在动作预测阶段,再利用任务信息资讯配图,共同预测执行的动作:


资讯配图


这种做法的局限在于:表征提取器始终是任务无关的。不管是 “关抽屉” 还是 “堆积木”,它提取的特征都一样。结果就是:大量无关信息被带入策略学习,既降低了策略学习的效率,也增加了不同任务上泛化的难度。


受到人类视觉的启发,我们提出在表征阶段就引入任务信息:


资讯配图


这样,场景表示能够随任务目标与执行阶段动态变化,带来三个好处:



超网络驱动的任务条件化表示 (Hypernetwork-Driven Task-Conditional Representation)


HyperTASR 的详细结构如 Figure 2 所示。为了实现任务感知,我们在表征提取器后加入了一个 轻量级的自编码器:


资讯配图


其中:



引入自编码器的一大优势在于,自编码器适用于不同的场景表征形式(2D/3D 表征都有对应的自编码器),另外自编码器可以维持原来场景表征的形式,无须调整后续策略网络的结构。


关键在于:资讯配图不是固定的,而是由超网络根据任务与执行状态动态调节的:


资讯配图


这里:



这样,场景表征不仅会随任务不同而变化,也会在任务的执行过程中不断动态迁移。


这种设计的优势:


1. 梯度分离:任务上下文与状态相关信息在梯度传播中分离,增强可解释性和学习效率

2. 动态变换:不是简单加权,而是真正改变表征函数,使得表征更加灵活


实验验证


HyperTASR 的另一个优势是模块化、易集成。这种 “即插即用” 的设计让 HyperTASR 可以同时增强 从零训练和预训练 backbone 两类方法。我们分别把它嵌入到两类主流框架中进行验证:


1.GNFactor(从零训练):使用 3D volume 表征

2.3D Diffuser Actor(基于预训练):使用 2D backbone 提取特征再投影到 3D 点云


我们只使用了行为克隆损失(Behavior Cloning Loss)作为我们网络的训练损失。


资讯配图


仿真实验


在仿真环境 RLBench 中的 10 个任务上进行训练,实验结果如 Table 1 所示:



在此基础上,我们进一步通过网络的梯度进行了注意力可视化:


资讯配图


从 Figure 3 中我们可以观察到:



另外,我们进行了消融实验,证明了 HyperTASR 设计中,引入任务进展的合理性,以及证明了使用超网络相比于直接利用 Transformer 将任务信息融合到场景表征里,能够获得更大的性能提升。


真机实验


我们采用 Aloha 进行了真机 manipulation 实验。如 Table 2 所示,在 6 个实际任务中,HyperTASR 在仅每个任务 15 条示教样本的有限条件下达到了 51.1%,展示了在真实环境操作中的强泛化能力。


资讯配图


一些真机实验对比结果如下:


资讯配图


参考

[1] Ze, Yanjie, et al. "Gnfactor: Multi-task real robot learning with generalizable neural feature fields." Conference on robot learning. PMLR, 2023.

[2] Ke, Tsung-Wei, Nikolaos Gkanatsios, and Katerina Fragkiadaki. "3D Diffuser Actor: Policy Diffusion with 3D Scene Representations." Conference on Robot Learning. PMLR, 2025.



资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
苹果AirPods 3 耳机「真机实拍」新增翻译+心率监测!值得入手吗?
马来西亚集成电路设计公司 Oppstar 与英业达合作开发 AI 芯片
鉴定完毕!新iPhone没有太大惊喜,AI依旧缺席
AAAI25 | DCConv:动态聚类卷积高效全局建模
【AI】图灵奖和诺贝尔奖双料得主Hinton最新警告:杀手机器人或将带来更多战争,最大担忧是AI接管人类
=COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大
AI能像人类一样评估社交情境
Anthropic模型自动“变笨”,从业者称“已对硅谷AI祛魅”
隼瞻科技亮相2025中国 RISC-V 生态大会,解锁端侧AI专用处理器敏捷开发新范式
AI男友年收2亿美金、老人对屏落泪:8大“灵魂捕手”正在偷走10亿人的心
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号