在机器人操作领域,视觉 - 语言 - 动作(VLA)模型虽已实现多任务泛化,却始终难以突破长时程精细操作的核心瓶颈——以系鞋带为例,该任务需同时满足 “毫米级穿洞精度”“柔性鞋带操控”“多步误差规避” 三大要求,传统方法或通用 VLA 模型均因能力短板无法胜任。
字节跳动提出的 GR-RL 框架,以 “问题定位 - 方案设计 - 落地验证” 为逻辑主线,通过多阶段训练 pipeline 将通用 VLA 模型转化为长时程精细操作专家,成为首个能自主完成多鞋孔系鞋带的学习型模型。
论文题目:GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
项目链接:https://seed.bytedance.com/gr_rl
作者单位:字节跳动
问题根源:长时程精细操作的三大核心矛盾
要解决长时程精细操作难题,需先明确通用 VLA 模型与真实任务需求的根本性矛盾,这是 GR-RL 设计的逻辑起点:
演示数据质量与任务精度的矛盾
人类演示是 VLA 模型的核心数据来源,但在毫米级精细操作中,即使专业远程操作者也会出现 “犹豫停顿”“错误尝试” 等次优行为,直接模仿这些含噪声的数据会导致模型学到低效甚至错误的动作模式。例如系鞋带时,人类可能因手部微颤导致鞋带偏离鞋孔,若模型复刻该动作,会直接引发后续操作失败。
训练与部署的行为 mismatch 矛盾
为保证机器人运动平滑,部署时需对模型输出的原始动作进行 “轨迹平滑”“滚动时域控制” 等优化,但训练阶段模型学习的是未优化的原始动作——这种 “训练学一套、部署用一套” 的差异,在精细操作中会被放大(如毫米级动作偏差累积),导致模型性能大幅下降。
泛化能力与任务特异性的矛盾
通用 VLA 模型追求跨任务泛化,却缺乏对特定任务(如系鞋带)的针对性优化:一方面,模型无法利用双臂机器人的形态对称性提升鲁棒性;另一方面,在长时程操作中,模型难以应对 “鞋带滑落”“鞋孔位置偏差” 等突发场景,误差会随操作步骤不断累积。

方案设计:GR-RL 的三层逻辑闭环
针对上述矛盾,GR-RL 构建了 “数据提纯 - 能力增强 - 行为对齐” 的三层逻辑闭环,每一层设计均直接对应一个核心矛盾,且各层之间形成递进关系——先解决数据质量问题,再提升模型泛化能力,最后对齐部署行为,确保方案的完整性与有效性。
第一层:数据提纯——用 RL 驱动的进度评估器过滤次优数据
为解决 “演示数据质量低” 的矛盾,GR-RL 摒弃 “全量模仿” 思路,提出基于分布式评论家网络的任务进度评估器,核心逻辑是 “让模型自主判断哪些动作对任务有正向贡献”:
-
进度评估器训练:采用 TD3+BC 离线强化学习算法,以 “任务成功 / 失败” 为稀疏奖励(仅当鞋带穿过目标鞋孔并放置到位时奖励为 1),同时通过 “重试关键帧标注” 将成功轨迹拆分为多个失败轨迹(如鞋带滑落前的片段),让评论家网络同时学习成功与失败模式,其预测的 Q 值可直接作为任务进度指标。 -
数据筛选规则:若某段动作序列的进度值下降超过阈值(如鞋带错过鞋孔导致进度骤降),则判定为次优数据并剔除,仅保留进度持续上升的高质量轨迹用于模仿学习。
第二层:能力增强——形态对称增强提升泛化鲁棒性
针对 “泛化能力不足” 的矛盾,GR-RL 利用双臂机器人的形态对称性设计数据增强策略,核心逻辑是 “通过对称变换扩展数据多样性,让模型适应不同操作视角与构型”:
-
多维度对称变换: -
视觉层面:水平翻转摄像头图像,交换左右手腕摄像头的画面(模拟左右手操作视角切换); -
动作与状态层面:将关节状态、动作指令通过世界坐标系的镜像对称转换,再映射回手腕局部坐标系(确保动作符合机器人运动学约束); -
语言层面:同步修改文本指令中的空间描述(如 “左侧鞋孔” 改为 “右侧鞋孔”),保证指令与动作的一致性。 -
增强效果:无需额外采集数据,即可让模型学习到 “左右手通用”“多视角适配” 的操作能力,例如面对不同摆放方向的鞋子,模型无需重新训练就能调整操作姿势。
第三层:行为对齐——在线 RL 弥合训练与部署差异
为解决 “训练 - 部署 mismatch” 的矛盾,GR-RL 提出基于 latent 空间探索的在线强化学习方案,核心逻辑是 “让模型在部署环境中通过试错学习,将训练动作与优化后的部署动作对齐”:
-
latent 空间探索设计: -
不同于在关节空间添加噪声(易破坏精细操作精度),GR-RL 在动作扩散模型的噪声输入空间引入轻量级噪声预测器,通过预测初始噪声引导动作生成,确保探索过程不偏离精细操作范围; -
为避免噪声超出训练分布,对预测器输出施加分布约束(当噪声偏离正态分布超过阈值时进行惩罚),同时蒸馏噪声空间的 Q 函数,提升优化效率。 -
双缓冲池采样策略: -
维护 “离线缓冲池”(存储筛选后的高质量演示数据)和 “在线缓冲池”(存储最新模型 rollout 轨迹),训练时均匀采样两部分数据,平衡 “稳定学习” 与 “环境适配”; -
在线缓冲池仅保留最近两个模型 checkpoint 的轨迹,避免陈旧数据影响对齐效果,同时不混入人类演示数据,防止引入新的行为 mismatch。
落地支撑:硬件与模型架构的协同优化
GR-RL 的方案落地需硬件与软件的协同支撑——专用机器人平台解决 “操作能力上限” 问题,混合 Transformer 架构解决 “复杂信息处理” 问题,二者共同确保技术方案的可执行性。
ByteMini-v2 机器人:为精细操作定制硬件
实验基于 ByteMini-v2 移动操作机器人,该平台针对长时程精细操作进行了三大关键优化,直接匹配 GR-RL 的任务需求:

-
负载能力提升:肘部执行器峰值扭矩从 17 Nm 增至 35 Nm,臂部最大负载从 1.4 kg 提升至 3.15 kg,确保抓取鞋带、调整鞋子位置时的稳定性; -
空间机动性优化:底盘投影面积缩小至 450 mm×650 mm,优化舵机转向轮设计,支持同步调整偏航角与俯仰角,便于在狭小空间内调整操作姿态(如系鞋带时靠近桌子边缘); -
人机交互与可靠性升级:整理暴露线束、将便携显示器移至肩部,减少设备故障风险,同时提升操作者对机器人状态的监控效率。
混合 Transformer 架构:处理多模态复杂信息
GR-RL 采用混合 Transformer(MoT)架构,总参数量达 50 亿,可高效处理 “视觉 - 语言 - 动作” 多模态信息:

-
VLA 策略网络:以 Qwen2.5-VL-3B-Instruct 为视觉 - 语言骨干,通过动作扩散 Transformer(DiT)生成 k 长度动作块,输入为 “语言指令 + 视觉观察 + 机器人状态”,输出为符合运动学约束的连续动作; -
分布式评论家网络:采用因果 Transformer 结构,预测每个动作块的 Q 值分布(而非单一数值),通过离散分布的上下界(0-1)约束,避免传统评论家的价值高估问题,确保进度评估的可靠性。
验证逻辑:从整体性能到组件有效性的层层拆解
为验证方案的科学性,GR-RL 采用 “整体性能→阶段贡献→组件有效性” 的递进式验证逻辑,通过实验数据证明每一步设计的必要性。
整体性能:系鞋带任务的突破
GR-RL 在系鞋带任务中实现 83.3% 的成功率,是首个能自主完成该任务的学习型模型,且性能显著优于基线模型:
-
基础通用模型 GR-3(无任何优化)成功率仅 45.7%; -
仅加入数据筛选后,成功率提升至 61.6%(证明次优数据过滤的价值); -
叠加形态对称增强后,成功率达 72.7%(验证泛化能力提升); -
最终通过在线 RL,成功率稳定在 83.3%,且在线训练后期成功率一度超过 90%,证明行为对齐的有效性。

阶段贡献:关键操作环节的性能提升
为进一步分析优化效果,GR-RL 拆解系鞋带任务为 “拾取鞋带→穿入鞋孔→交接至另一抓手→拉紧鞋带” 四个关键阶段,验证各优化环节对不同阶段的贡献:
-
数据筛选主要提升 “穿入鞋孔” 阶段的成功率(从 46.4% 升至 63.8%),减少因次优演示导致的穿洞偏差; -
形态对称增强对所有阶段均有提升(如 “拾取鞋带” 阶段从 58.7% 升至 76.5%),体现泛化能力的全面优化; -
在线 RL 进一步降低 “交接”“拉紧” 阶段的失败率(如 “交接” 阶段从 45.7% 升至 83.3%),解决长时程操作中的误差累积问题。

组件有效性:ablation 实验验证核心设计
通过 ablation 实验(控制变量法),验证 GR-RL 核心组件的必要性:
与回归型预测器的对比:对 “细微失败” 更敏感

-
过度平滑预测曲线:在常规场景下预测结果合理,但对 “毫米级偏差” 的细微失败(比如鞋带没完全拉出、穿洞精度不足)不敏感——这些误差看似微小,却会导致后续任务失败。 -
无法捕捉长期效果:当机器人主动放下鞋带调整抓取姿势(这是对任务有长期正向作用的操作)时,GR-RL 的预测会出现明显的 “价值跃升”,但回归型预测器的曲线几乎是平的,无法识别这类关键过渡。
与非分布式评论家的对比:避免 “价值高估”
我们用同样的 TD3+BC 算法训练了一个非分布式评论家,并在高质量成功轨迹上进行评估。在 “长时程 + 稀疏二值奖励” 的场景下,非分布式评论家存在严重问题:

-
价值高估严重:尤其是在轨迹前期(奖励监督信号很弱的阶段),它会过度放大状态的价值,导致进度评估偏离实际任务进展。 -
GR-RL 的优势:分布式评论家的价值预测被约束在预定义范围内,能更稳健地收敛到合理尺度,且与 “真实时间顺序” 的对齐效果更好。
局限与未来方向:基于现有逻辑的延伸思考
GR-RL 虽实现长时程精细操作的突破,但仍存在需进一步解决的问题,这些局限也指向了未来的优化方向,符合 “发现问题 - 解决问题” 的持续迭代逻辑:
行为漂移问题:在线 RL 阶段,稀疏噪声奖励可能导致模型行为不稳定(如偶尔出现无意义的动作重复),未来可通过 “动态调整噪声约束阈值” 或 “引入分层 RL(高层规划 + 低层控制)” 优化信用分配;
基础模型融合不足:当前 GR-RL 是在通用 VLA 模型基础上优化,但未将专精能力蒸馏回基础模型,导致模型难以兼顾 “长时程精细操作” 与 “多任务泛化”,未来需探索 “专精知识蒸馏” 技术;
任务扩展性有限:实验仅验证系鞋带任务,未来需在 “精密零件装配”“手术辅助” 等更多长时程精细操作任务中测试,进一步验证框架的通用性。
总结:GR-RL 的逻辑闭环与价值
GR-RL 的核心逻辑是 “精准定位矛盾→分层设计方案→协同硬件软件→科学验证效果”:从长时程精细操作的三大矛盾出发,设计 “数据提纯 - 能力增强 - 行为对齐” 的三层方案,通过专用硬件与混合架构确保落地,最后通过递进式实验验证每一步设计的必要性。这一逻辑不仅实现了系鞋带任务的突破,更为 “通用 VLA 模型向真实世界专精模型转化” 提供了可复用的范式——其核心思路可迁移至其他需要高精度、长时程操作的机器人任务,推动机器人从 “实验室演示” 走向 “真实场景落地”。