CVPR 2025 workshop冠军!中科院&字节:仅用3个示范轨迹,达到96.8%成功率!

深蓝具身智能 2025-07-03 10:58



机器人学习3D操作任务(如从桌上拿起杯子),长期面临“数据效率低”的瓶颈——动辄需要数百次演示。核心挑战在于如何让视觉语言模型(VLA)真正理解3D场景并精准指导机器人动作(即输入输出对齐)

中科院自动化所联合字节跳动Seed发布的BridgeVLA,不仅让机器人仅用3个示范轨迹就能达到96.8%的成功率,还斩获了CVPR 2025 GRAIL workshop的COLOSSEUM Challenge冠军

注:以下涉及到的代码部分为小编基于自己的理解进行的复现非作者团队开源内容。期待与各位读者就技术细节展开探讨,同时向论文作者团队致以诚挚感谢,其研究成果为我们提供了重要启发!

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

机器人学习困境

当前最先进的视觉-语言-动作模型(VLAs)面临一个尴尬的困境:

2D VLA模型的优势与痛点

能利用预训练模型的丰富知识;具备强大的语言理解能力;在开放词汇任务上表现优异。但是需要大量数据(每个任务需要数百个轨迹);对3D空间理解有限;难以处理精确的空间定位任务

3D机器人策略的优势与局限

样本效率高(约10个示范即可);能充分利用3D空间结构;在精确操作任务上表现出色。但是缺乏语言理解能力;泛化能力较弱;难以处理开放词汇指令。

这就像让一个人戴着眼罩去抓东西——虽然最终可能成功,但效率极低。现有的3D VLA模型试图结合两者优势,但它们通常将动作转换为没有空间结构的token序列:

范式转变:

从Next Token到Heatmap

BridgeVLA的核心创新在于它采用了输入输出对齐的策略,将预训练和微调的输入输出对齐到统一的2D空间,成功"bridge"了VLM和VLA之间的鸿沟:

输入对齐:3D→2D的智能转换

不同于传统3D VLA使用3D位置编码或3D信息注入,BridgeVLA采用了一种优雅的解决方案:

三视图正交投影

概述。BridgeVLA是一个新颖的3D VLA模型,在统一的2D图像空间中对输入和输出进行对齐。它使用2D热图在目标定位上进行预训练,并在3D操作的动作预测上进行微调。在仿真和现实环境中的实验结果表明,它能够高效且有效地学习3D操作。©️【深蓝具身智能】编译

这种设计的妙处在于:

输出对齐:从Next Token Prediction到Heatmap Prediction

这是BridgeVLA最大的创新点!传统方法将动作转换为离散的token序列,就像把一幅画描述成一串数字——信息损失巨大。

BridgeVLA创新性地使用2D热力图来表示动作:

热力图的数学表示:

其中,表示位置处的概率密度是目标位置的中心。 

多视图融合策略: 对于所有感兴趣的对象,通过平均和归一化融合概率图:

这种表示方法的优势在于:

空间结构保持:热力图天然保留了2D空间结构信息;

精确定位:可以达到像素级的定位精度;

直观可解释:热力图可视化让动作预测过程一目了然;

反投影简单:可以直接反投影到3D空间确定精确位置。

可扩展的预训练策略:赋予VLM空间感知能力

BridgeVLA采用精心设计的两阶段训练策略:

预训练阶段的创新设计

 2 模型架构。(a) 2D热图预训练:我们在2D物体检测数据集上训练BridgeVLA。模型接收一张图像和描述目标物体的语言作为输入,输出一个2D热图,突出显示与目标物体相对应的感兴趣区域。请注意,这里显示的边界框仅用于说明目的;在输入模型的图像中并不存在。(b) 3D动作微调:模型接收3D点云的三个正交投影图像和语言指令作为输入。它输出三个2D热图,在所有三个视图中突出显示下一个关键帧中末端执行器的位置。对于剩余的动作组件,它使用MLP处理图像特征标记来预测下一个关键帧的旋转动作、抓取器动作和碰撞标志。©️【深蓝具身智能】编译

微调阶段的精巧实现

知识保留的验证: 研究团队发现,即使经过机器人动作数据的密集微调,模型仍能准确预测预训练数据集中的目标检测任务。这证明了预训练知识被成功保留,为泛化能力奠定了基础。

技术细节深度解析

损失函数的精心设计

BridgeVLA的总损失函数包含四个精心平衡的部分:

各部分详解:

  • : 平移动作的交叉熵损失, 监督热力图预测的准确性;

  • : 旋转动作的交叉熵损失, 72个离散角度的分类任务;

  • : 夹爪状态的二元交叉熵损失;

  • : 碰撞避免标志的二元交叉熵损失。

粗到细的多级预测策略

这种策略借鉴了计算机视觉中的经典思想

两步预测流程

(1)粗预测阶段

a. 在完整的3D点云上进行初步预测

b. 快速定位大致目标区域

c. 计算效率高,但精度有限

(2)细预测阶段

a. 在预测位置周围裁剪一个立方体区域

b. 对裁剪后的点云进行放大

c. 进行第二次前向传播,获得精确位置

d. 显著提升了毫米级操作的成功率

数据增强策略

为了提高模型的鲁棒性,BridgeVLA同样采用了数据增强:

数据增强策略

# BridgeVLA伪代码实现
class BridgeVLA:    def __init__(self):        # 初始化预训练的VLM (PaliGemma)        self.vlm_backbone = PaliGemma()        self.convex_upsample = ConvexUpsampleBlock()        self.action_mlp = MLP(hidden_dim=256)
    def pretraining(self, image, text_prompt):        """预训练阶段:学习预测2D热力图"""        # 输入:图像 + 文本描述(如"Find all instances of cup")        # 输出:2D热力图
        # Step 1: VLM编码        image_tokens, text_tokens = self.vlm_backbone.encode(image, text_prompt)
        # Step 2: 提取图像位置的tokens并重排        spatial_features = rearrange(image_tokens, 'b (h w) d -> b d h w')
        # Step 3: 凸上采样到原始分辨率        heatmap = self.convex_upsample(spatial_features)  # [B, 1, H, W]
        return heatmap
    def forward(self, point_cloud, language_instruction):        """微调阶段:预测机器人动作"""
        # Step 1: 3D点云转2D正交投影        views = self.orthographic_projection(point_cloud)        # views = {        #     'top': image_top,      # 俯视图        #     'front': image_front,  # 正视图          #     'right': image_right   # 右视图        # }
        # Step 2: 为每个视图生成热力图        heatmaps = {}        for view_name, view_image in views.items():            # 使用预训练的热力图预测能力            heatmap = self.predict_heatmap(view_image, language_instruction)            heatmaps[view_name] = heatmap
        # Step 3: 粗预测 - 在完整点云上预测        coarse_position = self.coarse_prediction(heatmaps, point_cloud)
        # Step 4: 细预测 - 在目标区域精细预测        # 裁剪点云        cropped_cloud = self.crop_point_cloud(point_cloud, coarse_position, radius=0.1)
        # 重新投影和预测        cropped_views = self.orthographic_projection(cropped_cloud)        fine_heatmaps = {}        for view_name, view_image in cropped_views.items():            fine_heatmap = self.predict_heatmap(view_image, language_instruction)            fine_heatmaps[view_name] = fine_heatmap
        # 获取精确位置        fine_position = self.fine_prediction(fine_heatmaps, cropped_cloud)
        # Step 5: 预测其他动作组件        # 提取全局和局部特征        global_features = self.extract_global_features(views)        local_features = self.extract_local_features(fine_heatmaps)        combined_features = concatenate([global_features, local_features])
        # 预测旋转、夹爪和碰撞        rotation = self.action_mlp.predict_rotation(combined_features)      # 72个离散角度        gripper = self.action_mlp.predict_gripper(combined_features)       # 开/关        collision = self.action_mlp.predict_collision(combined_features)    # 是/否
        # 组装最终动作        action = {            'position': fine_position,      # 3D位置 [x, y, z]            'rotation': rotation,           # 欧拉角 [rx, ry, rz]            'gripper': gripper,            # 0 或 1            'collision_avoid': collision    # 0 或 1        }
        return action
    def orthographic_projection(self, point_cloud):        """将3D点云投影为三个2D视图"""        views = {}
        # 定义三个正交投影方向        projections = {            'top': {'axis''z''flip'False},    # 从上往下看            'front': {'axis''y''flip'True},   # 从前往后看            'right': {'axis''x''flip'True}    # 从右往左看        }
        for view_name, proj_config in projections.items():            # 投影并渲染为图像            projected_image = render_orthographic(                point_cloud,                 axis=proj_config['axis'],                flip=proj_config['flip']            )            views[view_name] = projected_image
        return views
    def coarse_prediction(self, heatmaps, point_cloud):        """从热力图反投影到3D空间,找到目标位置"""
        # 创建3D网格点        grid_points = create_3d_grid(workspace_bounds, resolution=0.01)
        # 为每个网格点计算得分        scores = []        for point in grid_points:            score = 0            # 将3D点投影到每个视图并查询热力图值            for view_name, heatmap in heatmaps.items():                proj_coord = project_to_view(point, view_name)                heat_value = sample_heatmap(heatmap, proj_coord)                score += heat_value            scores.append(score)
        # 返回得分最高的点        best_idx = argmax(scores)        return grid_points[best_idx]
    def train_step(self, batch):        """训练步骤"""        point_cloud, instruction, gt_action = batch
        # 前向传播        pred_action = self.forward(point_cloud, instruction)
        # 计算损失        loss_trans = cross_entropy(pred_action['position'], gt_action['position'])        loss_rot = cross_entropy(pred_action['rotation'], gt_action['rotation'])        loss_grip = binary_cross_entropy(pred_action['gripper'], gt_action['gripper'])        loss_coll = binary_cross_entropy(pred_action['collision_avoid'], gt_action['collision_avoid'])
        # 总损失        total_loss = loss_trans + loss_rot + loss_grip + loss_coll
        return total_loss

全方位验证:

屠榜三大基准测试

RLBench:18个复杂任务的全面胜利

RLBench包含了机器人操作的各种挑战性任务:

任务类型分析

(1)非抓取操作(如slide block、push buttons):BridgeVLA展现出对精确控制的掌握;

(2)拾取放置(如stack cups、place wine):在空间推理上表现卓越;

(3)高精度插入(如insert peg、light bulb in):成功率提升最为显著。

1 | RLBench上的结果。"平均排名"列报告了每种方法在所有18个任务中的平均排名,较低的值表示整体性能更好。BridgeVLA在18个任务中的10个任务中取得了最佳性能。©️【深蓝具身智能】编译

关键性能指标

(1)平均成功率:81.4% → 88.2%(提升6.8%)

(2)平均排名:2.5 → 1.9(18个任务中排名第一)

(3)最大提升:Insert Peg任务从40%提升到88%(提升48%!)

RLBench 任务演示

深度分析:BridgeVLA在需要精确空间定位的任务上优势尤为明显。

例如在Insert Peg任务中,需要将销钉精确插入孔中,容错空间极小。传统方法由于缺乏精确的空间表示,成功率仅40%,而BridgeVLA通过热力图实现了像素级定位,成功率飙升至88%

COLOSSEUM:斩获CVPR 2025 workshop冠军

COLOSSEUM是评估泛化能力的终极测试场,包含14种不同的环境扰动:

2 | COLOSSEUM基准测试的结果。该表显示了14种泛化设置下的成功率。"平均排名"列报告了每种方法在所有扰动中的平均排名,较低的值表示整体性能更好。与最先进的基准相比,BridgeVLA将平均成功率提高了7.3%。©️【深蓝具身智能】编译

扰动类型

(1)物体属性变化:纹理(TEXTURE)、颜色(COLOR)、大小(SIZE)

(2)环境因素变化:光照(Light Color)、背景(Background)、桌面(Table)

(3)视角变化:相机姿态(Camera Pose)

(4)干扰因素:添加干扰物体(Distractor)

▲COLOSSEUM 任务演示

性能表现

(1)平均成功率:56.7% → 64.0%(提升7.3%)

(2)最具挑战的"All Perturbations"设置:15.6% → 18.7%

(3)在14种扰动中:13种排名均第一

鲁棒性分析: BridgeVLA在各种扰动下都保持了稳定的性能,特别是在Table Color(75.7%)和Background Texture(74.8%)等视觉干扰下表现优异。这得益于热力图表示对目标物体的精确定位,减少了背景干扰的影响。

GemBench:四层递增挑战的全面领先

GemBench通过四个递增难度的层次全面评估模型能力:

层次化测试设计

BridgeVLA成功率:91.1%,展现了强大的空间泛化能力;

BridgeVLA成功率:65.0%,在处理新物体形状和颜色组合上表现出色;

BridgeVLA成功率:43.8%,在处理复杂机械结构上仍保持领先;

所有方法都表现不佳(接近0%),当前技术的共同局限

▲GemBench任务演示

真实机器人实验:远超现有Baseline

实验设置

硬件平台:Franka Research 3机械臂 + 平行夹爪

感知设备:ZED 2i深度相机

任务数量:13个基础任务

数据收集:通过示教方式收集专家轨迹

真实机器人实验和结果。我们使用Franka Research 3机器人手臂和ZED 2i相机来捕获场景的点云。为了评估模型的性能,我们设计了7种不同的设置,包括一个基本设置和六个泛化设置。实验结果表明,BridgeVLA比最先进的基准方法RVT-2的性能平均高出32%。©️【深蓝具身智能】编译

七大测试场景的详细分析

a. 3轨迹训练:96.8%成功率

b. 10轨迹训练:98.5%成功率

c. 证明了极致的数据效率

a. 添加视觉相似的干扰物体

b. BridgeVLA:91%(RVT-2:70%)

c. 热力图的精确定位有效抵抗了干扰

▲干扰物任务演示

a. 关闭灯光的极端条件

b. BridgeVLA:56%(RVT-2:10%)

c. 展现了对光照变化的鲁棒性

▲光照变化任务演示

a. 使用三种不同桌布

b. BridgeVLA:100%(RVT-2:63%)

c. 完美适应背景变化

▲背景变化任务演示

a. 物体放置在9.5cm高的抽屉上

b. BridgeVLA:80%(RVT-2:28%)

c. 3D空间理解能力的体现

▲高度变化任务演示

a. 13种新的物体-技能组合

b. BridgeVLA:65%(RVT-2:15%)

c. 语言理解和空间推理的完美结合

▲组合泛化任务演示

a. 7个完全未见过的物体类别

b. BridgeVLA:30%(RVT-2:20%)

c. 仍有改进空间,但已超越基线

▲类别泛化任务演示

深层原因:

BridgeVLA为何如此高效

VLA新范式的确立

从"Next Token Prediction"到"Heatmap Prediction"的转变,是思维范式的革新:

传统范式:将空间问题转化为序列问题,信息损失严重

BridgeVLA范式:保持空间问题的空间表示,信息完整保留

完美的输入输出对齐

通过精心设计,BridgeVLA实现了多层次的对齐:

模态对齐:3D和2D信息的无缝转换

分辨率对齐:输入图像和输出热力图保持相同分辨率

语义对齐:预训练和微调任务的语义一致性

预训练知识的充分利用

解决了预训练模型应用于机器人的核心难题:

知识迁移:视觉理解能力完整迁移到机器人任务

语言理解:保留了VLM的语言理解能力

空间感知:通过热力图预训练增强了空间感知能力

总结

BridgeVLA不仅是一个技术突破,更代表了3D VLA发展的新范式。

这项斩获CVPR 2025 workshop冠军的工作,它成功证明了通过正确的设计选择,我们可以同时实现"efficient"和"effective"——用极少的数据达到极高的性能。

编辑|JeffreyJ

审编|具身君

论文题目:BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

论文作者:Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan

代码主页:https://bridgevla.github.io/

项目主页:https://bridgevla.github.io/home_page.html

论文链接:https://arxiv.org/abs/2506.07961


图片【深蓝全域交流星球】

🔹大佬专访:每月访问 1 位领域先锋代表,打破交流限制

🔹具身智能特别栏目:即将上线至星球

🔹学术沙龙:北京、上海、杭州……多个城市巡回举办

🔹学术速递:每天至少 2 篇AI领域最新论文成果

🔹一作问答:不定期分享前沿工作,梳理形成万字技术文档

🔹更多内容……
扫下方二维码,领取大额优惠券;加入星球,同频交流:

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇

1、RSS2025最佳论文!康奈尔大学新突破:首个 | 个性化 | 实时 | 喂食机器人系统
2、双臂操作新突破:数据生成+强基准,真实场景任务相对改进高达 367%!
3、斯坦福重大突破|首次让机器人具备类人的「主动感知」能力,双臂操作任务中性能提升45%!

【深蓝具身智能】的原创内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果,转载添加下方微信进行授权,发文时务必注明出自【深蓝具身智能】微信公众号,否则侵权必究⚠️⚠️


投稿|寻求合作|研究工作推荐:SL13126828869


点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
功率
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号