CVPR 2025 workshop冠军！中科院&字节：仅用3个示范轨迹，达到96.8%成功率！ - 科技区角 CVPR 2025 workshop冠军！中科院&字节：仅用3个示范轨迹，达到96.8%成功率！

机器人学习3D操作任务（如从桌上拿起杯子），长期面临“数据效率低”的瓶颈——动辄需要数百次演示。核心挑战在于如何让视觉语言模型（VLA）真正理解3D场景并精准指导机器人动作（即输入输出对齐）。

中科院自动化所联合字节跳动Seed发布的BridgeVLA，不仅让机器人仅用3个示范轨迹就能达到96.8%的成功率，还斩获了CVPR 2025 GRAIL workshop的COLOSSEUM Challenge冠军！

注：以下涉及到的代码部分为小编基于自己的理解进行的复现，非作者团队开源内容。期待与各位读者就技术细节展开探讨，同时向论文作者团队致以诚挚感谢，其研究成果为我们提供了重要启发！

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

机器人学习困境

当前最先进的视觉-语言-动作模型（VLAs）面临一个尴尬的困境：

2D VLA模型的优势与痛点：

能利用预训练模型的丰富知识；具备强大的语言理解能力；在开放词汇任务上表现优异。但是需要大量数据（每个任务需要数百个轨迹）；对3D空间理解有限；难以处理精确的空间定位任务

3D机器人策略的优势与局限：

样本效率高（约10个示范即可）；能充分利用3D空间结构；在精确操作任务上表现出色。但是缺乏语言理解能力；泛化能力较弱；难以处理开放词汇指令。

这就像让一个人戴着眼罩去抓东西——虽然最终可能成功，但效率极低。现有的3D VLA模型试图结合两者优势，但它们通常将动作转换为没有空间结构的token序列：

输入不匹配：VLM在2D图像上预训练，但3D VLA直接输入3D信息，造成严重的分布偏移；
输出不对齐：将空间动作转换为离散token序列，丢失了关键的空间结构信息；
预训练浪费：无法充分利用大规模预训练模型中的知识。

范式转变：

从Next Token到Heatmap

BridgeVLA的核心创新在于它采用了输入输出对齐的策略，将预训练和微调的输入输出对齐到统一的2D空间，成功"bridge"了VLM和VLA之间的鸿沟：

输入对齐：3D→2D的智能转换

不同于传统3D VLA使用3D位置编码或3D信息注入，BridgeVLA采用了一种优雅的解决方案：

三视图正交投影：

将3D点云从三个正交方向（顶部、前方、右侧）投影成2D图像
每个视角捕获场景的不同空间信息
三个视图共同构成完整的3D空间表示

▲图1 | 概述。BridgeVLA是一个新颖的3D VLA模型，在统一的2D图像空间中对输入和输出进行对齐。它使用2D热图在目标定位上进行预训练，并在3D操作的动作预测上进行微调。在仿真和现实环境中的实验结果表明，它能够高效且有效地学习3D操作。©️【深蓝具身智能】编译

这种设计的妙处在于：

格式兼容：保持了与预训练VLM的2D输入格式完全一致
信息保留：正交投影保留了空间中的距离和角度关系
避免偏移：消除了3D到2D的分布偏移问题
计算高效：避免了处理高维3D数据的计算开销

输出对齐：从Next Token Prediction到Heatmap Prediction

这是BridgeVLA最大的创新点！传统方法将动作转换为离散的token序列，就像把一幅画描述成一串数字——信息损失巨大。

BridgeVLA创新性地使用2D热力图来表示动作：

热力图的数学表示：

其中，表示位置处的概率密度是目标位置的中心。

多视图融合策略：对于所有感兴趣的对象，通过平均和归一化融合概率图：

这种表示方法的优势在于：

空间结构保持：热力图天然保留了2D空间结构信息；

精确定位：可以达到像素级的定位精度；

直观可解释：热力图可视化让动作预测过程一目了然；

反投影简单：可以直接反投影到3D空间确定精确位置。

可扩展的预训练策略：赋予VLM空间感知能力

BridgeVLA采用精心设计的两阶段训练策略：

预训练阶段的创新设计：

数据来源：使用RoboPoint数据集的12万张目标检测图像
输入格式：图片-目标文本对（如"Find all instances of cup"）
处理流程： VLM处理图像和文本，输出包含空间信息的token

提取对应图像位置的token并重新排列
通过可学习的凸上采样（Convex Upsample）还原成原始分辨率的热力图
使用交叉熵损失监督热力图预测

▲图 2 | 模型架构。(a) 2D热图预训练：我们在2D物体检测数据集上训练BridgeVLA。模型接收一张图像和描述目标物体的语言作为输入，输出一个2D热图，突出显示与目标物体相对应的感兴趣区域。请注意，这里显示的边界框仅用于说明目的；在输入模型的图像中并不存在。(b) 3D动作微调：模型接收3D点云的三个正交投影图像和语言指令作为输入。它输出三个2D热图，在所有三个视图中突出显示下一个关键帧中末端执行器的位置。对于剩余的动作组件，它使用MLP处理图像特征标记来预测下一个关键帧的旋转动作、抓取器动作和碰撞标志。©️【深蓝具身智能】编译

微调阶段的精巧实现：

输入处理：

从RGB-D图像重建3D点云
生成三个正交投影视图
与语言指令一起输入预训练的VLM

动作预测：

为每个视图生成2D热力图
将三个热力图反投影到3D空间
在均匀分布的3D网格点中找到得分最高的位置
该位置即为下一关键帧的末端执行器目标

其他组件预测：

旋转：离散化为72个角度bin，使用MLP预测
夹爪状态：二元分类（开/关）
碰撞标志：指示是否需要避障

知识保留的验证：研究团队发现，即使经过机器人动作数据的密集微调，模型仍能准确预测预训练数据集中的目标检测任务。这证明了预训练知识被成功保留，为泛化能力奠定了基础。

技术细节深度解析

损失函数的精心设计

BridgeVLA的总损失函数包含四个精心平衡的部分:

各部分详解:

: 平移动作的交叉熵损失, 监督热力图预测的准确性；
: 旋转动作的交叉熵损失, 72个离散角度的分类任务；
: 夹爪状态的二元交叉熵损失；
: 碰撞避免标志的二元交叉熵损失。

粗到细的多级预测策略

这种策略借鉴了计算机视觉中的经典思想：

两步预测流程：

（1）粗预测阶段：

a. 在完整的3D点云上进行初步预测

b. 快速定位大致目标区域

c. 计算效率高，但精度有限

（2）细预测阶段：

a. 在预测位置周围裁剪一个立方体区域

b. 对裁剪后的点云进行放大

c. 进行第二次前向传播，获得精确位置

d. 显著提升了毫米级操作的成功率

数据增强策略

为了提高模型的鲁棒性，BridgeVLA同样采用了数据增强：

随机刚体变换：同时应用于点云和ground-truth动作
保持一致性：确保增强后的数据仍然物理合理
提升泛化：让模型适应各种空间变换

数据增强策略

# BridgeVLA伪代码实现

class BridgeVLA:    def __init__(self):        # 初始化预训练的VLM (PaliGemma)        self.vlm_backbone = PaliGemma()        self.convex_upsample = ConvexUpsampleBlock()        self.action_mlp = MLP(hidden_dim=256)
    def pretraining(self, image, text_prompt):        """预训练阶段：学习预测2D热力图"""        # 输入：图像 + 文本描述（如"Find all instances of cup"）        # 输出：2D热力图
        # Step 1: VLM编码        image_tokens, text_tokens = self.vlm_backbone.encode(image, text_prompt)
        # Step 2: 提取图像位置的tokens并重排        spatial_features = rearrange(image_tokens, 'b (h w) d -> b d h w')
        # Step 3: 凸上采样到原始分辨率        heatmap = self.convex_upsample(spatial_features)  # [B, 1, H, W]
        return heatmap
    def forward(self, point_cloud, language_instruction):        """微调阶段：预测机器人动作"""
        # Step 1: 3D点云转2D正交投影        views = self.orthographic_projection(point_cloud)        # views = {        #     'top': image_top,      # 俯视图        #     'front': image_front,  # 正视图          #     'right': image_right   # 右视图        # }
        # Step 2: 为每个视图生成热力图        heatmaps = {}        for view_name, view_image in views.items():            # 使用预训练的热力图预测能力            heatmap = self.predict_heatmap(view_image, language_instruction)            heatmaps[view_name] = heatmap
        # Step 3: 粗预测 - 在完整点云上预测        coarse_position = self.coarse_prediction(heatmaps, point_cloud)
        # Step 4: 细预测 - 在目标区域精细预测        # 裁剪点云        cropped_cloud = self.crop_point_cloud(point_cloud, coarse_position, radius=0.1)
        # 重新投影和预测        cropped_views = self.orthographic_projection(cropped_cloud)        fine_heatmaps = {}        for view_name, view_image in cropped_views.items():            fine_heatmap = self.predict_heatmap(view_image, language_instruction)            fine_heatmaps[view_name] = fine_heatmap
        # 获取精确位置        fine_position = self.fine_prediction(fine_heatmaps, cropped_cloud)
        # Step 5: 预测其他动作组件        # 提取全局和局部特征        global_features = self.extract_global_features(views)        local_features = self.extract_local_features(fine_heatmaps)        combined_features = concatenate([global_features, local_features])
        # 预测旋转、夹爪和碰撞        rotation = self.action_mlp.predict_rotation(combined_features)      # 72个离散角度        gripper = self.action_mlp.predict_gripper(combined_features)       # 开/关        collision = self.action_mlp.predict_collision(combined_features)    # 是/否
        # 组装最终动作        action = {            'position': fine_position,      # 3D位置 [x, y, z]            'rotation': rotation,           # 欧拉角 [rx, ry, rz]            'gripper': gripper,            # 0 或 1            'collision_avoid': collision    # 0 或 1        }
        return action
    def orthographic_projection(self, point_cloud):        """将3D点云投影为三个2D视图"""        views = {}
        # 定义三个正交投影方向        projections = {            'top': {'axis': 'z', 'flip': False},    # 从上往下看            'front': {'axis': 'y', 'flip': True},   # 从前往后看            'right': {'axis': 'x', 'flip': True}    # 从右往左看        }
        for view_name, proj_config in projections.items():            # 投影并渲染为图像            projected_image = render_orthographic(                point_cloud,                 axis=proj_config['axis'],                flip=proj_config['flip']            )            views[view_name] = projected_image
        return views
    def coarse_prediction(self, heatmaps, point_cloud):        """从热力图反投影到3D空间，找到目标位置"""
        # 创建3D网格点        grid_points = create_3d_grid(workspace_bounds, resolution=0.01)
        # 为每个网格点计算得分        scores = []        for point in grid_points:            score = 0            # 将3D点投影到每个视图并查询热力图值            for view_name, heatmap in heatmaps.items():                proj_coord = project_to_view(point, view_name)                heat_value = sample_heatmap(heatmap, proj_coord)                score += heat_value            scores.append(score)
        # 返回得分最高的点        best_idx = argmax(scores)        return grid_points[best_idx]
    def train_step(self, batch):        """训练步骤"""        point_cloud, instruction, gt_action = batch
        # 前向传播        pred_action = self.forward(point_cloud, instruction)
        # 计算损失        loss_trans = cross_entropy(pred_action['position'], gt_action['position'])        loss_rot = cross_entropy(pred_action['rotation'], gt_action['rotation'])        loss_grip = binary_cross_entropy(pred_action['gripper'], gt_action['gripper'])        loss_coll = binary_cross_entropy(pred_action['collision_avoid'], gt_action['collision_avoid'])
        # 总损失        total_loss = loss_trans + loss_rot + loss_grip + loss_coll
        return total_loss

全方位验证：
屠榜三大基准测试

RLBench：18个复杂任务的全面胜利

RLBench包含了机器人操作的各种挑战性任务：

任务类型分析：

（1）非抓取操作（如slide block、push buttons）：BridgeVLA展现出对精确控制的掌握；

（2）拾取放置（如stack cups、place wine）：在空间推理上表现卓越；

（3）高精度插入（如insert peg、light bulb in）：成功率提升最为显著。

▲表1 | RLBench上的结果。"平均排名"列报告了每种方法在所有18个任务中的平均排名，较低的值表示整体性能更好。BridgeVLA在18个任务中的10个任务中取得了最佳性能。©️【深蓝具身智能】编译

关键性能指标：

（1）平均成功率：81.4% → 88.2%（提升6.8%）

（2）平均排名：2.5 → 1.9（18个任务中排名第一）

（3）最大提升：Insert Peg任务从40%提升到88%（提升48%！）

▲RLBench 任务演示

深度分析：BridgeVLA在需要精确空间定位的任务上优势尤为明显。

例如在Insert Peg任务中，需要将销钉精确插入孔中，容错空间极小。传统方法由于缺乏精确的空间表示，成功率仅40%，而BridgeVLA通过热力图实现了像素级定位，成功率飙升至88%。

COLOSSEUM：斩获CVPR 2025 workshop冠军

COLOSSEUM是评估泛化能力的终极测试场，包含14种不同的环境扰动：

▲表2 | COLOSSEUM基准测试的结果。该表显示了14种泛化设置下的成功率。"平均排名"列报告了每种方法在所有扰动中的平均排名，较低的值表示整体性能更好。与最先进的基准相比，BridgeVLA将平均成功率提高了7.3%。©️【深蓝具身智能】编译

扰动类型：

（1）物体属性变化：纹理（TEXTURE）、颜色（COLOR）、大小（SIZE）

（2）环境因素变化：光照（Light Color）、背景（Background）、桌面（Table）

（3）视角变化：相机姿态（Camera Pose）

（4）干扰因素：添加干扰物体（Distractor）

▲COLOSSEUM 任务演示

性能表现：

（1）平均成功率：56.7% → 64.0%（提升7.3%）

（2）最具挑战的"All Perturbations"设置：15.6% → 18.7%

（3）在14种扰动中：13种排名均第一

鲁棒性分析： BridgeVLA在各种扰动下都保持了稳定的性能，特别是在Table Color（75.7%）和Background Texture（74.8%）等视觉干扰下表现优异。这得益于热力图表示对目标物体的精确定位，减少了背景干扰的影响。

GemBench：四层递增挑战的全面领先

GemBench通过四个递增难度的层次全面评估模型能力：

层次化测试设计：

L1（Novel Placements）：相同物体的新位置

BridgeVLA成功率：91.1%，展现了强大的空间泛化能力；

L2（Novel Rigid Objects）：未见过的刚性物体

BridgeVLA成功率：65.0%，在处理新物体形状和颜色组合上表现出色；

L3（Novel Articulated Objects）：未见过的关节物体

BridgeVLA成功率：43.8%，在处理复杂机械结构上仍保持领先；

L4（Novel Long-Horizon Tasks）：需要多步骤的复杂任务

所有方法都表现不佳（接近0%），当前技术的共同局限

▲GemBench任务演示

真实机器人实验：远超现有Baseline

实验设置：

硬件平台：Franka Research 3机械臂 + 平行夹爪

感知设备：ZED 2i深度相机

任务数量：13个基础任务

数据收集：通过示教方式收集专家轨迹

▲图3 | 真实机器人实验和结果。我们使用Franka Research 3机器人手臂和ZED 2i相机来捕获场景的点云。为了评估模型的性能，我们设计了7种不同的设置，包括一个基本设置和六个泛化设置。实验结果表明，BridgeVLA比最先进的基准方法RVT-2的性能平均高出32%。©️【深蓝具身智能】编译

七大测试场景的详细分析：

Basic（基础设置）：

a. 3轨迹训练：96.8%成功率

b. 10轨迹训练：98.5%成功率

c. 证明了极致的数据效率

Distractor（干扰物）：

a. 添加视觉相似的干扰物体

b. BridgeVLA：91%（RVT-2：70%）

c. 热力图的精确定位有效抵抗了干扰

▲干扰物任务演示

Lighting（光照变化）：

a. 关闭灯光的极端条件

b. BridgeVLA：56%（RVT-2：10%）

c. 展现了对光照变化的鲁棒性

▲光照变化任务演示

Background（背景变化）：

a. 使用三种不同桌布

b. BridgeVLA：100%（RVT-2：63%）

c. 完美适应背景变化

▲背景变化任务演示

Height（高度变化）：

a. 物体放置在9.5cm高的抽屉上

b. BridgeVLA：80%（RVT-2：28%）

c. 3D空间理解能力的体现

▲高度变化任务演示

Combination（组合泛化）：

a. 13种新的物体-技能组合

b. BridgeVLA：65%（RVT-2：15%）

c. 语言理解和空间推理的完美结合

▲组合泛化任务演示

Category（类别泛化）：

a. 7个完全未见过的物体类别

b. BridgeVLA：30%（RVT-2：20%）

c. 仍有改进空间，但已超越基线

▲类别泛化任务演示

深层原因：

BridgeVLA为何如此高效

VLA新范式的确立

从"Next Token Prediction"到"Heatmap Prediction"的转变，是思维范式的革新：

传统范式：将空间问题转化为序列问题，信息损失严重

BridgeVLA范式：保持空间问题的空间表示，信息完整保留

完美的输入输出对齐

通过精心设计，BridgeVLA实现了多层次的对齐：

模态对齐：3D和2D信息的无缝转换

分辨率对齐：输入图像和输出热力图保持相同分辨率

语义对齐：预训练和微调任务的语义一致性

预训练知识的充分利用

解决了预训练模型应用于机器人的核心难题：

知识迁移：视觉理解能力完整迁移到机器人任务

语言理解：保留了VLM的语言理解能力

空间感知：通过热力图预训练增强了空间感知能力

总结

BridgeVLA不仅是一个技术突破，更代表了3D VLA发展的新范式。

这项斩获CVPR 2025 workshop冠军的工作，它成功证明了通过正确的设计选择，我们可以同时实现"efficient"和"effective"——用极少的数据达到极高的性能。

编辑｜JeffreyJ

审编｜具身君

论文题目：BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

论文作者：Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan

代码主页：https://bridgevla.github.io/

项目主页：https://bridgevla.github.io/home_page.html

论文链接：https://arxiv.org/abs/2506.07961

【深蓝全域交流星球】

🔹大佬专访：每月访问 1 位领域先锋代表，打破交流限制

🔹具身智能特别栏目：即将上线至星球

🔹学术沙龙：北京、上海、杭州……多个城市巡回举办

🔹学术速递：每天至少 2 篇AI领域最新论文成果

🔹一作问答：不定期分享前沿工作，梳理形成万字技术文档

🔹更多内容……

扫下方二维码，领取大额优惠券；加入星球，同频交流：

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？‍

欢迎关注【深蓝具身智能】👇

1、RSS2025最佳论文！康奈尔大学新突破：首个 | 个性化 | 实时 | 喂食机器人系统

2、双臂操作新突破：数据生成+强基准，真实场景任务相对改进高达 367%！

3、斯坦福重大突破｜首次让机器人具备类人的「主动感知」能力，双臂操作任务中性能提升45%！

【深蓝具身智能】的原创内容均由作者团队倾注个人心血制作而成，希望各位遵守原创规则珍惜作者们的劳动成果，转载添加下方微信进行授权，发文时务必注明出自【深蓝具身智能】微信公众号，否则侵权必究⚠️⚠️

投稿｜寻求合作｜研究工作推荐：SL13126828869

点击❤收藏并推荐本文

机器人学习困境

范式转变：

从Next Token到Heatmap

从Next Token到Heatmap

输入对齐：3D→2D的智能转换

输出对齐：从Next Token Prediction到Heatmap Prediction

可扩展的预训练策略：赋予VLM空间感知能力

损失函数的精心设计

粗到细的多级预测策略

数据增强策略

数据增强策略

全方位验证：屠榜三大基准测试

全方位验证：

屠榜三大基准测试

RLBench：18个复杂任务的全面胜利

COLOSSEUM：斩获CVPR 2025 workshop冠军

GemBench：四层递增挑战的全面领先

真实机器人实验：远超现有Baseline

深层原因：

BridgeVLA为何如此高效

BridgeVLA为何如此高效

VLA新范式的确立

完美的输入输出对齐

预训练知识的充分利用

总结

全方位验证：
屠榜三大基准测试