操作精度和场景适应性首超点云!地瓜机器人提出纯视觉机器人操作方法VO-DP

智猩猩 2025-09-22 13:00
地瓜机器人团队稿

智猩猩Robot整理


到端的机器人操作学习是具身智领域的关键研究方向目前的主流技术方向可以大致分为两个分支:VAVision-Action Models)和 VLAVision-Language-Action Models现阶段VLAL能起到的作用非常有限在单一任务的情况下,对观测到行动的预测,即VA的建模是一个更基础的问题,它有助于深刻理解时空表达如何影响动作预测,同时也可以通过各种创新不断探索VA的能力边界。因此,本论文主要聚焦的技术方向为VA,即视觉运动学习(Visuomoter Learning


随着视觉基础模型的快速发展,为纯视觉方案提供了可靠的预训练模型。特别是近期VGGT的出现,明确地将基础视觉模型的能力从二维语义感知提升到三维空间感知。然而,纯视觉方案在机器人操作领域尚未能应有的性能其根本原因在于动作策略模型中的感知表征模块相对薄弱为此,地瓜机器人联合同济大学提出仅视觉、单视角的扩散策略学习方法VO-DP,利用预训练的视觉基础模型实现语义与几何特征的有效融合。VO-DP采用预训练视觉表征器替代硬件原生点云输入的方案旨在构建能够超越以3D作为观测输入的方法的纯视觉方案



在仿真实验中,VO-DP3 frames)与DP3在精度上已经持平,并且VO-DP1 frame)已经略微超过DP3证明了该纯视觉方案已经能够与3D方案在精度上对齐,甚至有所超越VO-DP也已经成果部署到真实机械臂上,并能成果执行桌面收纳混合堆叠等复杂任务。


1

核心贡献


1. 该团队充分挖掘了纯视觉在机器人操作任务中的性能潜力。实验证明,本论文所提出的纯视觉方案不仅突破了传统纯视觉方法(DP)的性能瓶颈,还实现了与基于3D点云方案(DP3)的性能对齐,甚至有所超越,充分表明纯视觉表征在复杂操作任务中具备与三维感知方案相抗衡甚至取而代之的技术潜力。


2. 提出了VO-DP (Vision-Only Diffusion Policy) 方法,该方法将语义特征和几何特征进行融合并压缩,作为下游Policy Head的输入。具体地:1)引入VGGT的中间层特征,即DINOv2的语义特征和Alternating Attention的几何特征;2)设计了一种基于Cross-Attention的的融合模块对语义特征和几何特征进行融合,进行特征增强的同时,也降低了特征的数量;3)提出了空间特征压缩的模块,将增强后的特征进行压缩,适配下游任务的输入。经过融合的特征,可以显著提升Robotic Manipulation的成功率


3. 研发了面向 Robotic Manipulation 训练框架 DRRMD-Robotics Robotic Manipulation,该框架基于 Accelerate 实现多机多卡并行训练,支持bf16/fp16等混合精度。已兼容DP/DP3Visiomotor Policy以及Robotwin仿真器。


2

背景介绍


端到端的机器人操作(Robotic Manipulation)学习是具身智领域的关键研究方向,其本质在于构建 感知 决策 控制一体化模型,从而实现机器人与物理环境的精准交互。机器人端到端操学习作目前的主流技术方向可以大致分为两个分支:VAVision-Action Models)和 VLAVision-Language-Action Models


VA 模型主要基于视觉观测对机器人未来的动作进行预测。VA只关联了两个模态的信息,即视觉观测和机器人动作,VA不依赖语言(Language)指令作为引导。VLA相比较于VA增加了语言作为引导,它关联了三个模态的信息,即语言指令、视觉观测和机器人动作。通常VLA的模型参数量会显著多于VA,大约是VA10倍左右可达几B甚至几十B


VAVLA都是在模仿学习的范畴之下进行训练的。VLA一般是由一个VLM基座结合负责动作预测的Action Expert 构成。其中VLM是在大量的互联网数据上进行预训练,Action Expert则是通常是在在预先训练的基础上,通过少量采集的动作轨迹数据进行finetune


现阶段VLAL能起到的作用非常有限,原因如下:1)相同任务的不同demonstration中,L的文本内容通常都是完全一致的,那么意味着文本本身提供的语义可视为一个固定不变的条件,即用于区分不同任务的标志,对于动作准确性的提升是有限的;  2) L的使用要引入Text encoder 或者 VLM,这会显著增大模型的参数量和减慢模型的推理速度。


地瓜机器人团队认为,在单一任务的情况下,对观测到行动的预测,即VA的建模是一个更基础的问题,它有助于深刻理解时空表达如何影响动作预测,同时也可以通过各种创新不断探索VA的能力边界。因此,本论文主要聚焦的技术方向为VA,即视觉运动学习(Visuomoter Learning


在近2年的VA方案中,较为经典的方案是DPDiffusion Policy[1]DP的关键创新之处在于将扩散模型(Diffusion Model)引入动作序列的预测,并利用条件去噪扩散概率模型(Conditional DDPM)对动作分布进行建模。但在观测端的表示学习方面,DP做的探索较少,留下了较大的提升空间。DP采用图像(即纯视觉信息)作为观测输入,利用经典的残差网络(ResNet)作为图像特征提取器,同时也对其它几种二维特征提取网络进行了消融实验,大致结论为:若以从头开始训练(train from scratch)的方式进行训练,则各特征提取器之间的差异并不明显,因此文中选择了最为简单的ResNet18作为最终的特征提取器。


此外,DP33D Diffusion Policy[2] DP的基础上,将输入模态由RGB图像转变为3D点云。通过对稀疏3D点云开展特征学习,获取场景紧凑的3D特征表达,并将其作为Diffusion Policy的条件输入。由于直接依托3D点云的特征对空间距离具备更优的表达能力,故而DP3在精度方面通常相较于DP具有显著优势。


视觉基础模型的快速发展,为纯视觉方案提供了可靠的预训练模型。特别是近期VGGT [3] 的出现,明确地将基础视觉模型的能力从二维语义感知提升到三维空间感知。具体而言,VGGT以多视角的图像作为输入,采用DINOv2 [4] 作为图像编码器,随后进行帧注意力(frame-attention)与全局注意力(global attention)操作,充分融合多视角图像的特征,最后使用DPT [5] 恢复原图分辨率,对深度和点云进行预测。这种范式能够直接从RGB图像中获得空间感知能力。


本方案旨在通过深入研究视觉观测的表示学习方案探索纯视觉条件下VA的能力上限。本方案专注于表示学习本身,以DP作为基线(baseline),并不对扩散策略(diffusion policy)部分进行改动,最终旨在构建能够超越以3D作为观测输入的方法的纯视觉方案


3

方案动机


视觉传感器的综合性能优势相较于深度相机(RGB-D)与激光雷达(LiDAR),RGB相机具备显著的成本效益与工程便利性。其硬件成本可降低数倍至数十倍,且无需多传感器标定带来的系统复杂性。自动驾驶领域已验证 RGB 传感器可以达到更高的观测频率从而生成更平滑的轨迹预测,减少运动模糊导致的控制延迟从而带来更好的智能驾驶体验。


其次纯视觉感知更加符合生物学基础人类通过双目视觉系统感知世界,仅依赖纯视觉输入即可完成复杂任务操作(如精准抓取、避障导航)。这表明生物智能在无深度传感条件下,通过二维视网膜成像与大脑神经处理的高效协同,已具备空间几何推理与行动预测的潜力。


然而,纯视觉方案在机器人操作领域尚未能应有的性能其根本原因在于动作策略模型中的感知表征模块相对薄弱为此,地瓜机器人团队提出采用预训练视觉表征器替代硬件原生点云输入的方案纯视觉模型拥有比点云模型更为丰富的预训练模型生态,例如多模态预训练模型(如 CLIP)、纯视觉预训练模型(如 DINOv2)等。在具身操作任务中,对空间状态的表征通常决定了动作策略的性能上限,因此选用了 VGGT 面向几何重建的视觉大模型。


4

方法概要


4.1 VGGT介绍


本部分先对VGGT进行简要介绍,阐释其为何是一种优秀的VA特征提取器。首先,VGGT以纯图像作为输入(单张图像或多视角图像均可),满足纯视觉输入的要求;其次,VGGT的图像编码器部分采用了DINOv2,此部分输出的token具有极为出色的语义特征;最后,VGGT主干末端输出的token具备良好的空间感知信息,这是因为VGGT的学习目标是重建输入图像中的三维场景。通过上述分析可知,VGGT高度契合对特征的要求。


4.2 本论文的方法


基于VGGT和下游Diffusion Policy,重新设计了一套面向VA的特征表示学习的结构


资讯配图

 

本论文的核心创新如下:


1. 基于 Cross-Attention 的 semantic-aware feature 和 geometry-aware feature 融合


Semantic-aware feature,即语义感知特征,能够为动作策略提供高层次抽象信息(如物体类别、场景上下文),从而实现目标物体与场景状态的识别;而geometry-aware feature,即几何感知特征(如边界、位置、尺度等),通过描述空间结构细节来实现目标物体与本体的相对位置判定。Cross-Attention通过动态计算两类特征的关联权重,从而自适应地选取任务中更受关注的模态信息,助力精准的动作生成。


具体而言,将 VGGT 图像编码器(即 DINOv2)输出的 tokens 用作 semantic-aware feature,将 VGGT 主干网络末端(头部之前)输出的 tokens 用作几何感知特征,以几何感知特征作为查询(Query),语义感知特征作为键/值(Key/Value)进行融合。


2. 中融合完成后得到的token,需要进一步做处理。下游Diffusion Policy需要高度压缩后的特征,即所有的观测最终要变成一个特征向量,作为diffusion的条件输入。中得到的token有多个,做如下设计:



VGGT在大量的重建数据上完成了训练,因此在训练过程中,不对VGGT的权重进行微调,仅对特征融合模块和CNN的特征压缩模块开展训练,以尽可能降低可训练的参数量。在模仿学习的框架下,示教数据量通常相对较少,因此在一定程度上减少可学习的参数量有助于缓解过拟合问题。


5

实验验证


5.1 仿真验证


当前,学术界可供使用的仿真平台较为丰富。考虑到仿真的综合效果、任务的挑战性以及接口的便捷性,最终选用RoboTwin 1.0进行验证。


实验设置如下:



5.2 特征选择(消融实验)


VGGT中可以用到的特征主要有三种:DINOv2的特征Alternating-Atten的特征,以及前两者的结合


此处的消融实验,选用的任务为:Pick Apple MessyBlock Hammer BeatDual Bottles Pick (Easy)Put Apple CabinetBlocks Stack (Easy)


上述三种特征对应的token数量以及维度完全一致。


下表是这三种特征的实验结果


资讯配图



因此,本研究确认了两个极具潜力的特征来源,即DINOv2VGGT - AA。选用这两个特征的主要原因在于,DINOv2更侧重于语义特征,而VGGT - AA更侧重于空间几何特征,融合两者后的特征,能够同时具备语义和空间感知的能力。


5.3 总体实验比较(DPDP3


在本小节,将在更多的任务上,与DPDP3进行对比


资讯配图


VO-DP (3 frames/1 frame) 分别表示利用连续三帧的图像和一帧的图像作为Policy Head的输入。DPDP3默认为三帧(官方设置)



部分可视化结果——DPVO-DP1 frame


DP



VO-DP



DP



VO-DP


DP



VO-DP



DP



VO-DP


5.4 真机验证


验配



任务一


桌面收纳,将两个正方体的积木放到盘子中,将一个长方体的积木放到杯子中


成功执行的视频展示如下:


资讯配图
资讯配图
资讯配图

(视频均做了2x的加速处理,后续的视频也做同样的加速处理;视频中的三幅图从左到右分别是L515的图像,ZED左目图像和ZED右目图像)


任务二


堆叠积木,首先将红色的正方体积木放到盘子中,随后将绿色的长方体积木放在红色正方体积木上,最后将蓝色正方体积木放在绿色长方体积木上


成功执行的视频展示如下:


资讯配图
资讯配图
资讯配图

任务三


混合堆叠,首先将红色的正方体积木放置到盘子中,随后将倒扣的杯子扣在红色正方体积木上,最后将蓝色的正方体积木放置到倒扣的杯子底部


成功执行的视频展示如下:


资讯配图
资讯配图
资讯配图


6

总结与未来工作


针对以纯视觉作为输入的VA探索,制定了一系列长期规划,目前已顺利完成第一阶段。


后续将展开进一步探索。



END


智猩猩矩阵号各专所长,点击名片关注




声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
最新 | 全球Top实验室联手攻克机器人泛化难题:端到端VLA数据、基准、Sim2Real差距……
马斯克看好,OLED屏给人形机器人“长脸”?
谐波减速器头部企业获2000万元投资;电机上市公司拟募资超10亿元加码机器人关节模组 | 一周资本大事件
机器人抓取与操作核心算法(强化学习、模仿学习、VLA、VLM等)
缓解小孩恐惧焦虑的 AI 机器人,已经走进美国几十家医院|AI新大陆
剑指中美,英国首款工业人形机器人发布
英国初创公司 Humanoid 推出 HMND 01 Alpha 双臂移动机器人
读博士混匪帮,中美机器人“南橘北枳”
国华智能发布全栈式人形机器人核心部件 引领国产关节技术自主化进程
操作精度和场景适应性首超点云!地瓜机器人提出纯视觉机器人操作方法VO-DP
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号