探究具身机器人有限泛化能力的本质原因!增强策略依然有效

具身智能之心 2025-08-12 08:00

点击下方卡片,关注“具身智能之心”公众号


作者丨Youguang Xing等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

研究背景与核心问题

近年来,随着大规模机器人数据集(如Open X-Embodiment/OXE)和高容量模型的发展,通用机器人策略在多种任务上展现出强大能力。然而,这些策略在面对训练数据分布之外的场景时,泛化能力仍然有限。有趣的是,这种限制不能简单归因于数据量不足——OXE包含超过一百万段轨迹,远超典型视觉语言模型训练数据集的规模。

研究者发现,捷径学习(shortcut learning)——模型依赖任务无关特征而非真正因果关系——是限制泛化能力的关键因素。如Figure 1所示,在SIMPLER环境中,多个在OXE上训练的通用机器人策略在被要求"将勺子放在毛巾上"时,却一致执行"拿起可乐罐"这一仅在RT-1子数据集中存在的任务。这表明模型学习了与任务无关的特征(如视角、背景)与动作之间的虚假相关性,而非理解语言指令与目标之间的真正关系。

资讯配图

数据集多样性和碎片化分析

有限的子数据集多样性

研究者对OXE数据集进行了详细分析,发现机器人数据集与视觉/多模态数据集存在显著差异。Figure 2展示了这种差异:OXE各子数据集的视觉和文本多样性(对数尺度)明显低于其视觉和多模态对应物。即使是旨在提高多样性的最新数据集DROID,其多样性仍比其他数据集低几个数量级。

资讯配图

这种有限多样性主要源于机器人数据收集过程中的固有限制:

  • 场景和视角在不同轨迹间难以显著变化
  • 每个子数据集中的机器人技能通常是预定义的,限制在狭窄的任务范围内(Figure 15)
资讯配图

严重的数据集碎片化

Figure 3通过t-SNE可视化展示了OXE数据集的碎片化问题。与视觉和多模态数据集(不同数据集通常交织在一起)不同,OXE的子数据集表现出明显的分离,重叠极少。某些子数据集甚至有多个分离的簇,有效地将整个数据集分割成更多小规模的子数据集。

资讯配图

Figure 4进一步量化了这种碎片化。研究者定义了两个关键度量:

资讯配图
  • 多样性度量:
  • 差异度量:

其中温度参数作为软阈值,调节成对距离对度量的影响。Figure 4的底部图显示了比值,该比值整合了多样性和差异度量,用于评估数据集碎片化程度。当子数据集内部多样性不足且子数据集间差异增大时,子数据集表现为分散在空间中的孤立"点",而非形成连贯、互联的数据集。

值得注意的是,尽管任务指令在子数据集间缺乏重叠,但Figure 14和Table 3显示,不同子数据集的文本特征在空间中比视觉和多模态数据集更接近。这是由于共享的机器人技能(如抓取-放置、开/关任务)和相同领域内文本指令的一致性所致。

资讯配图
资讯配图

数据集特性与捷径学习的理论联系

捷径学习的数学框架

研究者将观察建模为多个"观察因素"的生成结果。定义为影响标签的任务相关因素,为所有其他任务无关因素。理想情况下,

捷径学习发生在模型依赖于无关因素时,即。当在训练分布中任务相关因素和任务无关因素不独立时(),由于之间的因果关系,变得相关,导致之间的虚假相关性。

研究者建立了数学框架来分析由多个不同子数据集组成的如何导致相关性。考虑由个子数据集组成的混合数据集,每个子数据集有其自身的分布。做出两个简化假设:

  1. 子数据集内独立性:在任何给定子数据集内,变量是独立的
  2. 均匀混合:整个数据集是子数据集的均匀混合

为量化之间的相关性,使用归一化互信息:

理论发现

Proposition 3.1 (不相交集合中的互信息):给定两个支持集完全不相交的子数据集(),之间的归一化互信息为:

其中是每个子数据集内的熵之和。

Proposition 3.2 (重叠集合中的互信息):给定两个具有潜在重叠支持集的子数据集,令,归一化互信息的上界为:

其中量化了子数据集之间的重叠程度。

这些理论结果解释了为什么大型机器人数据集容易产生捷径学习:

  • 多样性不足加剧虚假相关性:Proposition 3.1表明,当子数据集高度碎片化(支持集不相交)时,互信息(作为虚假相关的代理)与(作为子数据集内总多样性的代理)成反比。在这样的数据集上训练的机器人模型可以轻松地将任务无关因素(如特定视角)与特定子数据集关联起来,而子数据集又揭示了任务相关因素的信息,形成捷径。
  • 子数据集交错削弱虚假相关性:Proposition 3.2表明,随着交错程度增加,互信息的上界收紧并趋向于零。直观上,当子数据集共享共同因素(如从多个视角看到的同一目标)时,模型无法使用这些因素作为可靠捷径来识别来源子数据集,迫使其学习真正的因果关系。

此外,研究者发现任务无关特征的子数据集间距离对捷径学习有显著影响。Figure 1显示模型倾向于依赖视觉线索而非文本指令,这是因为OXE中任务无关特征(视觉)的子数据集间距离明显大于任务相关特征(文本)的距离。神经网络优先学习更简单的模式,而更大的特征距离意味着更大的方差,当任务无关特征的子数据集间距离远大于任务相关特征时,模型优先学习这些高方差特征,形成捷径。

实验验证

LIBERO环境中的控制实验

为验证理论发现,研究者在LIBERO仿真环境中进行了控制实验(Figure 5)。设置任务相关因素为目标位置和对应语言指令,任务无关因素为主视角。

资讯配图

实验变量包括:

  • 视角多样性:子数据集内视角范围的半径
  • 视角差异性:两个视角范围中心之间的距离
  • 目标位置多样性和差异性:每个子数据集中目标位置的数量(1-5)和空间布局(交错vs分离)

Figure 6展示了关键结果:提高子数据集内多样性和减少子数据集间差异能有效减少所有评估模型的捷径依赖,与理论分析一致。当多样性增加或差异性减小时,所有模型都从完全依赖捷径(零成功率)转变为无捷径行为(非零成功率)。

资讯配图

值得注意的是,扩散策略中增加目标位置多样性并不能缓解捷径学习,可能是因为缺乏语言输入。这表明,没有语言线索,模型难以仅从视觉观察中识别任务相关特征,突显了语言指令的重要性。

多样性并非总是有益

资讯配图

Figure 7展示了多样性并不总是有帮助的反例。当通过为每个任务分配不同视角来增加视角多样性(从2到10)时,反而诱导了子数据集中的因素相关性,加剧了碎片化。这导致MiniVLA的OOD成功率降至零。此处,视角多样性将原始子数据集分割成10个不相交的子集,恶化了碎片化。这强调了在数据收集过程中需要控制多样性,保持因素独立性并避免子数据集碎片化。

真实世界实验验证

资讯配图

Figure 1和Table 1展示了真实世界的实验结果。研究者使用AgileX PIPER机器人臂和两个不同视角的相机,构建了两个高度相关的子数据集(每个子数据集代表独特的相机视角与目标目标及对应指令的组合)。在这些数据上微调的π0模型表现出严重的捷径学习:它学会了将视角与动作关联,忽略语言指令。

为解决此问题,研究者引入了新数据:添加了涉及第三个目标目标的演示,从两个相机视角捕获(Figure 8)。这种新数据充当了原始两个子数据集之间的"桥梁",同时增加了每个子数据集内的指令多样性和减少了它们之间的差异。

资讯配图

Table 1的结果令人信服:添加第三个"桥梁"目标完全消除了观察到的捷径行为,显著提高了OOD成功率。通过从不同视角学习目标和指令一致的数据,模型成功学习了视角不变性。这不仅在真实世界环境中确认了理论框架,还建议了有价值的数据收集策略:通过在保持其他因素不变的同时改变一个因素,可以有效地连接不同的子数据集,打破虚假相关性,增强机器人策略的泛化能力。

通过数据增强缓解捷径学习

鉴于从头收集大规模、完美平衡的机器人数据集通常成本过高,研究者探索了有针对性的数据增强策略能否有效增加子数据集多样性和减少分布差异,从而缓解捷径学习。

视角增强弥合视觉差距

Figure 9展示了视角增强的示例。通过生成新视角来创建子数据集之间的共享视觉上下文,打破视角与特定任务之间的虚假相关性。在π0微调实验中,研究者使用ZeroNVS模型为每个图像生成另一个视角的图像。这一过程有效打破了视角因素在子数据集间的碎片化。Table 1的结果表明,使用视角增强数据进行微调显著降低了π0的捷径学习程度,提高了OOD成功率。

资讯配图

目标增强统一任务分布

Figure 10展示了目标增强如何打破真实世界数据中的虚假相关性。原始图像显示与特定场景绑定的目标。增强过程通过在场景之间交换这些目标,迫使模型学习独立于视觉上下文(如视角或背景)的目标身份。

资讯配图

研究者在SIMPLER仿真环境和真实世界环境中验证了这一方法。Table 2显示,这种策略产生了显著改进。未增强的π0模型在OOD设置中完全无法遵循语言指令,而增强版本则表现出明显更好的语言遵循和目标到达能力。这些结果证实,精心选择的数据增强策略可以通过增强子数据集多样性和弥合分布差距,成功缓解通用机器人策略中的捷径学习。

资讯配图

参考

[1]Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
CMU最新!跨实体世界模型助力小样本机器人学习
英伟达发布全新 Cosmos 世界模型系列,布局具身智能未来场景| 区势·AI
拿工业大单,筹备IPO……绵阳机器人产业动作频频
世界首台!自动巡航杂交授粉育种机器人“吉儿”诞生
周报 | 他说:灵巧手不需要五指,人形机器人B端会更快实现商业化…
人形机器人厂商花式“出圈”,谁是下一个“爆款”?
一周园区要闻盘点丨2025世界机器人大会开幕;京港澳青年科学家大会在亦庄举行
售价3.86万起!天链机器人发布新款人形机器人—“超级物种-小天”,开启TO C智能新体验
智元双动态:斩获数千万元订单;入股深圳一智能机器人
快讯|智元机器人获富临精工数千万元订单;90后中科大博士造机器人,再获数亿元融资;具身智能机器人发展十大趋势发布等
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号