《Science Robotics》重磅：仅需2小时，机器人柔性装配技能直逼人类顶尖水平

机器人操控一直是机器人技术领域的核心挑战。从工厂中的机械臂到家庭服务机器人，如何让机器人灵活、精细且智能地完成各种操作任务，是研究者们数十年来努力的方向。传统的操控方法往往需要工程师精心设计控制规则，或者让机器人反复观看人类演示进行模仿学习。但这些方法通常缺乏适应性，遇到新场景容易失败，且难以达到人类水平的熟练度和速度。

近年来，强化学习（RL）提供了一种新思路：让机器人通过自主尝试和错误来学习技能，根据结果调整策略。然而，在现实世界中训练机器人成本高昂、效率低下，且存在安全风险，因此，尽管RL在模拟环境中表现优异，将其直接应用于真实机器人始终困难重重。

针对以上难题，来自美国伯克利大学的刘建兰研究团队提出了基于视觉的人机协同强化学习系统（HIL-SERL），正在改变这一局面。该系统仅需1至2.5小时的真实世界训练，就使机器人精通了一系列复杂操作任务，成功率近乎完美，执行速度甚至超越人类水平。该成果以“Precise and dexterous robotic manipulation via human-in-the-loop reinforcement learning”为题发表在国际顶级期刊《Science Robotics》上。

▍传统方法困境：从“手把手教”到放手探索

HIL-SERL系统成功的关键在于巧妙融合了人类导师的引导和机器人自主探索的能力，形成一个高效且安全的学习闭环。

简单来说，该系统首先通过少量人类演示为机器人提供“入门指导”，使其对任务建立初步认知。随后，机器人开始自主尝试，而人类操作员则在其即将犯错或已经出错时进行干预纠正，并将这些纠正数据纳入训练过程。

HIL -SERL的训练过程和概览

为实现这一学习机制，HIL-SERL系统在架构上由三个分布式运行的核心组件构成：执行器进程、学习器进程，以及集成于学习器进程内部的重放缓冲区。在算法层面，系统采用高效的离策略强化学习技术，充分挖掘历史数据中的信息，以持续优化行为策略。它不仅学习人类的操作示范，还能够评估不同行为对达成目标的贡献程度，从而逐步形成甚至优于人类表现的解决方案。此外，系统还整合了预训练的视觉模型以理解环境，并设计了安全的底层控制器，确保训练过程安全可控。

▍多任务实战，从精细装配到动态操控

为验证系统性能，团队设计了一系列极具挑战性的操作任务，涵盖精密装配、双臂协调和动态操作等多个方面。

在精密装配任务中，机器人需要完成电脑主板组装，包括插入RAM条、安装固态硬盘、连接USB线缆等。这些操作要求亚毫米级精度和恰到好处的力度，传统方法难以可靠完成。在双臂协调任务中，机器人需完成汽车仪表盘组装，要求两只机械臂默契配合，同时处理工件的抓取、定位和插入操作。在考验动态响应能力的任务中，机器人展现了高超的动态操作能力。例如平底锅翻转物体，机器人需要掌握手腕发力技巧，将随机放置的物体抛起并完美接住。

任务涵盖了一系列操作挑战

实际上这些任务不仅要求精度高、力量控制恰当，还常常需要根据实时视觉反馈调整动作——这正是人类最擅长、而传统机器人最薄弱的部分。

但实验结果令人惊叹，机器人在1~2.5小时的真实训练后，成功率接近100%，速度比模仿学习快1.8倍，这比HG-DAgger 基线有了显著的提升，后者在所有任务中的平均成功率为 49.7%。在需要更复杂行为的任务中，例如叠叠乐、插入 RAM 棒和组装正时皮带，性能差距更为明显，甚至在部分任务上的表现超越了人类操作员。

更令人惊喜的是，这些机器人还具备了“抗干扰能力”。研究人员故意设置了多种“突发状况” 来测试机器人：在插入 RAM 条时突然将主板向左侧移动 5 毫米，在机器人传递零件时强行掰开机械臂的夹爪，在装配过程中人为将零件旋转 15 度……

面对这些“意外”，传统机器人往往会报错停机，而 HIL-SERL 训练后的机器人，却像经验丰富的老师傅一样，迅速调整策略 —— 比如主板移动后，视觉模型立刻捕捉到偏差，机器人随即微调机械臂角度，重新对准插槽；夹爪被掰开后，它会立刻加大握力，重新抓住零件。这种适应性，正是传统机器人训练方法难以实现的，因为它源于机器人在训练中的自主探索，而非预设的程序。

▍深层原理：如何让机器人“学以致用”

这种强大的适应与响应能力，其核心在于HIL-SERL系统能够根据不同的任务需求，自主演化出不同的控制策略。

对于需要高精度实时调整的任务（如RAM插入、精密装配），系统学会了一种闭环反应策略，其特点是策略输出的动作方差在初期较高，允许粗略试探，但随着接近目标而迅速降低，实现精细调整。这种策略能快速响应即时感官反馈（如接触力、视觉偏移），进行实时纠错，例如在插入过程中检测到卡顿后主动退出的再尝试行为。而对于动态操作任务（如叠叠乐抽积木、物体翻转），系统则采用开环预测策略，其动作方差在整个执行过程中始终保持低位，表明策略高度自信，执行的是预先规划好的稳定、连贯动作序列，类似于一种习得的“反射”技能。

反应行为与预测行为

这种策略分化并非由人为指定，而是系统通过与环境持续交互“自由”演化出的适应性行为。这与传统方法形成鲜明对比，后者需将接触模式和适应运动等动态建模，导致计算复杂度和对状态估计的依赖急剧上升。HIL-SERL则通过直接在感知数据上学习，编码了解决任务所需的内在动态，无需复杂的问题形式化，使其更高效、更易扩展。

▍结语

这项研究证明了，通过巧妙的系统设计，结合高效算法、预训练视觉模型、安全控制和人类指导，强化学习能够克服样本效率低和安全性差的弱点，直接在现实世界中高效学习复杂技能。