《Science Robotics》重磅:仅需2小时,机器人柔性装配技能直逼人类顶尖水平

机器人大讲堂 2025-09-06 19:41

机器人操控一直是机器人技术领域的核心挑战。从工厂中的机械臂到家庭服务机器人,如何让机器人灵活、精细且智能地完成各种操作任务,是研究者们数十年来努力的方向。传统的操控方法往往需要工程师精心设计控制规则,或者让机器人反复观看人类演示进行模仿学习。但这些方法通常缺乏适应性,遇到新场景容易失败,且难以达到人类水平的熟练度和速度。


近年来,强化学习(RL)提供了一种新思路:让机器人通过自主尝试和错误来学习技能,根据结果调整策略。然而,在现实世界中训练机器人成本高昂、效率低下,且存在安全风险,因此,尽管RL在模拟环境中表现优异,将其直接应用于真实机器人始终困难重重。


针对以上难题来自美国伯克利大学的刘建兰研究团队提出了基视觉的人机协同强化学习系统(HIL-SERL,正在改变这一局面。该系统仅需12.5小时的真实世界训练,就使机器人精通了一系列复杂操作任务,成功率近乎完美,执行速度甚至超越人类水平。该成果以Precise and dexterous robotic manipulation via human-in-the-loop reinforcement learning”为题发表在国际顶级期刊《Science Robotics》上。


资讯配图


传统方法困境:从“手把手教”到放手探索


HIL-SERL系统成功的关键在于巧妙融合了人类导师的引导和机器人自主探索的能力,形成一个高效且安全的学习闭环。


简单来说,该系统首先通过少量人类演示为机器人提供“入门指导”,使其对任务建立初步认知。随后,机器人开始自主尝试,而人类操作员则在其即将犯错或已经出错时进行干预纠正,并将这些纠正数据纳入训练过程。


资讯配图

HIL -SERL的训练过程和概览


为实现这一学习机制,HIL-SERL系统在架构上由三个分布式运行的核心组件构成:执行器进程、学习器进程,以及集成于学习器进程内部的重放缓冲区。在算法层面,系统采用高效的离策略强化学习技术,充分挖掘历史数据中的信息,以持续优化行为策略。它不仅学习人类的操作示范,还能够评估不同行为对达成目标的贡献程度,从而逐步形成甚至优于人类表现的解决方案。此外,系统还整合了预训练的视觉模型以理解环境,并设计了安全的底层控制器,确保训练过程安全可控。


多任务实战从精细装配到动态操控


为验证系统性能,团队设计了一系列极具挑战性的操作任务,涵盖精密装配、双臂协调和动态操作等多个方面。


资讯配图


精密装配任务中,机器人需要完成电脑主板组装,包括插RAM条、安装固态硬盘、连接USB线缆等。这些操作要求亚毫米级精度和恰到好处的力度,传统方法难以可靠完成。在双臂协调任务中,机器人需完成汽车仪表盘组装,要求两只机械臂默契配合,同时处理工件的抓取、定位和插入操作。在考验动态响应能力的任务中,机器人展现了高超的动态操作能力。例如平底锅翻转物体,机器人需要掌握手腕发力技巧,将随机放置的物体抛起并完美接住。


资讯配图

任务涵盖了一系列操作挑战


实际上这些任务不仅要求精度高、力量控制恰当,还常常需要根据实时视觉反馈调整动作——这正是人类最擅长、而传统机器人最薄弱的部分。


但实验结果令人惊叹机器人在1~2.5小时的真实训练后,成功率接近100%,速度比模仿学习快1.8这比HG-DAgger 基线有了显著的提升,后者在所有任务中的平均成功率为 49.7%。在需要更复杂行为的任务中,例如叠叠乐、插入 RAM 棒和组装正时皮带,性能差距更为明显甚至在部分任务上的表现超越了人类操作员。


更令人惊喜的是,这些机器人还具备了“抗干扰能力”。研究人员故意设置了多种“突发状况” 来测试机器人:在插入 RAM 条时突然将主板向左侧移动 毫米,在机器人传递零件时强行掰开机械臂的夹爪,在装配过程中人为将零件旋转 15 度……


资讯配图


面对这些“意外”,传统机器人往往会报错停机,而 HIL-SERL 训练后的机器人,却像经验丰富的老师傅一样,迅速调整策略 —— 比如主板移动后,视觉模型立刻捕捉到偏差,机器人随即微调机械臂角度,重新对准插槽;夹爪被掰开后,它会立刻加大握力,重新抓住零件。这种适应性,正是传统机器人训练方法难以实现的,因为它源于机器人在训练中的自主探索,而非预设的程序。


深层原理:如何让机器人“学以致用”


这种强大的适应与响应能力,其核心在于HIL-SERL系统能够根据不同的任务需求,自主演化出不同的控制策略。


对于需要高精度实时调整的任务(如RAM插入、精密装配),系统学会了一种闭环反应策略,其特点是策略输出的动作方差在初期较高,允许粗略试探,但随着接近目标而迅速降低,实现精细调整。这种策略能快速响应即时感官反馈(如接触力、视觉偏移),进行实时纠错,例如在插入过程中检测到卡顿后主动退出的再尝试行为。而对于动态操作任务(如叠叠乐抽积木、物体翻转),系统则采用开环预测策略,其动作方差在整个执行过程中始终保持低位,表明策略高度自信,执行的是预先规划好的稳定、连贯动作序列,类似于一种习得的“反射”技能。


资讯配图

反应行为与预测行为


这种策略分化并非由人为指定,而是系统通过与环境持续交互“自由”演化出的适应性行为。这与传统方法形成鲜明对比,后者需将接触模式和适应运动等动态建模,导致计算复杂度和对状态估计的依赖急剧上升。HIL-SERL则通过直接在感知数据上学习,编码了解决任务所需的内在动态,无需复杂的问题形式化,使其更高效、更易扩展。


结语


这项研究证明了,通过巧妙的系统设计结合高效算法、预训练视觉模型、安全控制和人类指导强化学习能够克服样本效率低和安全性差的弱点,直接在现实世界中高效学习复杂技能。


这不仅在学术上具有重要意义,也为工业应用打开了新局面,特别是在需要多品种、小批量生产的柔性制造领域,如电子产品组装、汽车零部件装配等。


展望未来,这类系统可作为生成高质量机器人数据的技能引擎”,为训练更通用的机器人基础模型提供支持,最终实现真正通用的机器人操作能力。


原文链接:https://www.science.org/doi/10.1126/scirobotics.ads5033#


如需咨询企业合作事宜,欢迎联系机器人大讲堂-客服(19560423866,手机与微信同号)进行对接。


----------------END-------------------

资讯配图



工业机器人企业

埃斯顿自动化 | 埃夫特机器人 | 非夕科技 | 法奥机器人 | 越疆机器人 | 节卡机器人 | 松灵机器人 | 珞石机器人 盈连科技 集萃智造 | 优傲机器人 | CGXi长广溪智造 | 阿童木机器人 极智嘉

服务与特种机器人企业

亿嘉和 | 晶品特装 | 七腾机器人 史河机器人 | 九号机器人 | 普渡机器人 | 小笨智能 | 机器姬

医疗机器人企业

元化智能 | 天智航 | 思哲睿智能医疗 | 精锋医疗 | 佗道医疗 | 真易达 | 术锐®机器人 | 罗森博特 | 磅客策 | 柏惠维康 | 迪视医疗 | 水木东方

人形机器人企业

优必选科技 | 宇树 | 云深处 | 星动纪元 | 伟景机器人 | 逐际动力 | 乐聚机器人 | 大象机器人 | 中科深谷 | 魔法原子 | 众擎机器人 | 帕西尼感知 | 赛博格机器人 | 数字华夏 | 理工华汇 | 傅利叶智能 | 天链机器人 | 开普勒人形机器人 | 灵宝CASBOT | 清宝机器人 | 浙江人形机器人创新中心 | 动易科技智身科技 | PNDbotics

具身智能企业

跨维智能 | 银河通用 | 千寻智能 | 灵心巧手 | 睿尔曼智能 | 微亿智造 | 推行科技 | 中科硅纪 | 枢途科技 | 灵巧智能 | 星尘智能 | 穹彻智能 | 方舟无限 | 科大讯飞 | 北京人形机器人创新中心| 国地共建人形机器人创新中心 | 擎朗智能 | 戴盟机器人 视比特机器人星海图 月泉仿生

核心零部件企业

绿的谐波 | 因时机器人 | 坤维科技 | 脉塔智能 | 青瞳视觉 | 本末科技 | 鑫精诚传感器 | 蓝点触控 | BrainCo强脑科技 | 宇立仪器 | 极亚精机 | 思岚科技 | 神源生 | 非普导航科技 | 锐驰智光 | NOKOV度量科技 | 因克斯 | 褔德机器人 | 巨蟹智能驱动 | 微悍动力 | 凌云光 元客视界 璇玑动力意优科技| 瑞源精密 | 灵足时代 Xynova曦诺未来

教育机器人企业

硅步机器人 | 史河科教机器人 | 大然机器人

加入社群

欢迎加入【机器人大讲堂】读者讨论群, 共同探讨机器人相关领域话题,共享前沿科技及产业动态,添加微信“robospeak2018”入群!


资讯配图
资讯配图



看累了吗?戳一下“在看”支持我们吧

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 机器人
more
【报名入口】共赴产业盛宴!2025 具身智能复合机器人产业峰会即将开启!
“十四五”这五年丨我国工业机器人新增装机量占全球50%以上
24.8万版Optimus?能连干八小时的国产人形机器人来了
传快仓智能秘密递表港股,今年已有15家移动机器人产业链企业冲刺IPO
我国已发布人工智能国家标准30项 15项人形机器人国标正在研制
【早鸟倒计时8天】ARTS 2025|分论坛:控制规划与多机器人
杭州市具身智能机器人“强链补链”三年行动方案征求意见
【机器人】中国军队“黑科技”曝光!历史首次国产“机器狼”亮相阅兵场
【智造】钱江机器人拿下鸿路钢构1888台特定机型焊接机器人本体订单
形智共生,感知无界—2025(第二届)人形机器人感知与控制峰会圆满结束!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号