顶会收录!机器人刷视频就能学会操作?南科大×逐际动力×港大新成果

机器人大讲堂 2025-09-18 19:43

想象一下,如果机器人也能像我们一样,通过视频就能学习各种操作技能——比如从抖音上的叠衣服技巧学会整理衣物,从B站的收纳教程学会归置物品——那会是什么样子?


听起来很科幻?但在本月公布的CoRL 2025论文收录名单中,一篇来自南方科技大学CLEAR Lab、逐际动力和香港大学的联合研究,正在把这个设想变成现实。


资讯配图

收录地址:https://www.corl.org/program


Conference on Robot Learning (CoRL)可不是一般的学术会议。作为机器人学习领域的顶级学术会议2017年创办以来,CoRL始终引领着机器人学习的技术前沿。今年CoRL 2025关注操作与模仿学习、感知、规划与安全、运动控制、人形与硬件等大热核心主题,竞争之激烈可想而知。


在这样的背景下,南方科技大学CLEAR Lab联合逐际动力、香港大学的论文《Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-top Manipulation》能够成功入选,是因为它提出了一种巧妙的机器人训练范式:让机器人通过视频来预测任务执行过程,进而学会自主操作这也是逐际动力在用视频数据进行具身智能训练的又一突破,有望加速机器人自主操作能力的发展。


资讯配图

[图:机器人通过观察人类来学习]


GVF-TAPE让机器人先"看懂"再操作的新范式


在具身智能训练的数据金字塔中,视频数据是最大的变量。为什么这么说?因为互联网上有海量的人类操作视频——从美食教程到手工DIY,从工业装配到日常家务,这些视频本质上都是宝贵的"教学资源"。


问题是,如何让机器人真正"看懂"这些视频并转化为自己的技能?


传统方法就像让机器人死记硬背——工程师需要针对特定场景、特定操作任务进行手把手示教,告诉机器人每个动作的精确参数。这种方式下的人力、时间成本高昂,且无法应对环境的变化,导致部署和泛化的效率低下


论文中所介绍GVF-TAPE(Generative Visual Foresight with Task-Agnostic Pose Estimation)算法,核心创新在于将生成式视觉预测和与任务解耦的姿态估计相结合,简单来说,就是让机器人通过看视频学习操作,像人类一样先在脑海里"演练"一遍完成任务的整个过程


1.先从视频学习一遍:机器人“看”同类的操作视频,学习操作动作

2.准确预测完成任务的画面通过视频生成模型,预测出自己完成任务时的RGB-D视频,既有颜色信息,更重要的是还有深度信息。

3.再根据想象的画面推理动作从生成的视频中提取末端执行器的姿态信息

4.最后执行具体操作通过低层控制器将姿态转化为可执行的运动指令


资讯配图

 [图.方法框图概览]


三项突破让机器人更快学会操作


突破一:无需深度相机即可生成RGB-D视频


传统方法生成的只是2D RGB视频,没有空间信息,机器人无法在三维空间准确执行操作。而GVF-TAPE的突破在于,仅凭RGB图像就能生成RGB-D视频——既有颜色信息,也有深度信息不需要再借助额外的深度相机来植入空间信息。


资讯配图 [图. 生成RGB-D操作视频,第一行代表RGB图,第二行代表对应的深度图。]


这就像给机器人装上了"立体视觉",让它能更准确地判断物体在三维空间中的位置。在仿真实验中,加入深度信息后,任务成功率平均提升了6.78%。更重要的是,不需要深度相机,对于数据采集工具要求进一步降低,成本下降的同时效率也大幅提高


突破二:与具体任务解耦机器人姿态预测


让人眼前一亮的是GVF-TAPE的训练方式。不同于传统的手把手示教,它采用了"机器人随机探索"训练模式,机器人随机运动,就能获得对场景泛化有价值的数据:



[视频.机器人自主随机探索]


机器人在环境中随意运动,利用内置的本体感知系统记录当前场景机器人位姿(位置和姿态)。这些看似毫无章法的动作,实际上是在构建一个庞大的"场景-位姿"对应关系数据库,让算法对场景“免疫”,在任何场景都能识别机器人的位姿


这种方法的巧妙之处在于:

  • 动作与任务完全解耦,同一份数据可以用于训练各种不同任务,提高了数据复用率

  • 数据采集完全自动化,不需要任何人工标注,大幅减少了人力成本,也加速了数据库的积累与迭代速度

  • 可扩展性极强,数据库越大,泛化能力越强,模型将在更多任务中有更稳健的表现


通过这种自主探索方式,机器人建立了丰富的位姿数据库。面对新场景、新任务时,它能够调用相关经验,快速排除场景噪音,生成最优控制轨迹,真正实现了"一次训练,多任务、多场景应用"。


突破三:实时响应的视频生成速度


以往基于扩散模型(Diffusion Model)的视频生成方法,就像传统胶片相机的冲印过程——需要经过显影、定影等多个步骤才能得到清晰照片,往往要花好几秒甚至十几秒才能生成一段动作视频。


GVF-TAPE采用了"流匹配"(Flow Matching)技术,就像数码相机的即拍即得——虽然两者都是通过降噪来生成清晰图像,但Flow Matching能用更少的步骤达到同样甚至更好的效果,将单个动作的预测时间缩短到0.6秒。


资讯配图 [图. 生成质量对比]


从图中可以看到,左侧图表显示的是视频生成误差——流匹配(红线)在相同步数下,误差值大大小于扩散模型(蓝线)。右侧图表展示的是生成视频的图像质量,流匹配仅用前三步就达到了大大高于扩散模型的质量这种速度提升,让机器人能够在不同场景下快速、准确地执行操作,真正实现了实时闭环控制。


实验验证:更高的效率和成功率


为了验证这种"先预测再操作"方法的有效性,研究团队在仿真和真实环境中都进行了大量测试。


仿真环境表现


LIBERO基准测试中,GVF-TAPE与多个最先进的方法进行了对比。结果显示:


资讯配图

[图. 仿真试验结果]


  • LIBERO-Spatial和LIBERO-Object测试中,GVF-TAPE分别取得了95.5%和86.7%的成功率

  • 整体平均成功率达到83%,比第二名高出11.56%

  • 最关键的是,其他方法都需要20%的动作标注数据,而GVF-TAPE完全不需要


实机部署验证


在真实环境中,研究团队测试了7个不同难度的任务包括刚体、柔体和铰接物体操作等。具体包括把碗放进微波炉并关门、抓取纸巾、折叠衣服把抹布扔进垃圾桶等。


从简单抓取到复杂的开合操作,从刚性到柔性物体,GVF-TAPE在不同场景和操作变化下都展现出了强大的适应性。特别值得一提的是,在引入人类操作视频进行预训练后,成功率从56%飙升至86%


[视频. 真机操作样例展示]


基于生成视频数据的自主操作探索再升级


作为该成果的研究团队成员之一,逐际动力一直在探索"多元数据配方"策略——通过整合不同模态、不同来源的数据,让机器人更高效地学习操作技能。在视频数据驱动的机器人训练这一方向上,他们取得了多项突破。


今年年初,逐际动力推出的LimX VGM(VideoGenMotion)算法,首次实现了将人类操作视频实现机器人操作。而这次的GVF-TAPE,进一步优化了这一技术栈:


  • 从分钟级延迟到亚秒级响应,实现了实时视频生成

  • 从依赖深度相机到纯视觉生成,增强了空间感知能力

  • 以本体随机探索替代人类示教,大幅降低了数据采集成本


这种持续的技术迭代,正在让视频数据成为机器人学习的"通用教材",推动着具身智能向更实用、更高效的方向发展。


试想一下,未来的场景:工厂里机器人,通过学习大量操作视频就能快速上岗家里的服务机器人,参考网上的教程视频不断学习新技能医院的手术机器人,通过观摩手术录像持续提升操作水平


这种让机器人通过视频学习的能力,或许正是具身智能真正走向大规模应用的关键一步。


毕竟,谁不想身边有一个通过视频就学会干活机器人助手呢?


如需咨询企业合作事宜,欢迎联系机器人大讲堂-客服(19560423866,手机与微信同号)进行对接。


----------------END-------------------

资讯配图



工业机器人企业

埃斯顿自动化 | 埃夫特机器人 | 非夕科技 | 法奥机器人 | 越疆机器人 | 节卡机器人 | 松灵机器人 | 珞石机器人 盈连科技 集萃智造 | 优傲机器人 | CGXi长广溪智造 | 阿童木机器人 极智嘉

服务与特种机器人企业

亿嘉和 | 晶品特装 | 七腾机器人 史河机器人 | 九号机器人 | 普渡机器人 | 小笨智能 | 机器姬

医疗机器人企业

元化智能 | 天智航 | 思哲睿智能医疗 | 精锋医疗 | 佗道医疗 | 真易达 | 术锐®机器人 | 罗森博特 | 磅客策 | 柏惠维康 | 迪视医疗 | 水木东方

人形机器人企业

优必选科技 | 宇树 | 云深处 | 星动纪元 | 伟景机器人 | 逐际动力 | 乐聚机器人 | 大象机器人 | 中科深谷 | 魔法原子 | 众擎机器人 | 帕西尼感知 | 赛博格机器人 | 数字华夏 | 理工华汇 | 傅利叶智能 | 天链机器人 | 开普勒人形机器人 | 灵宝CASBOT | 清宝机器人 | 浙江人形机器人创新中心 | 动易科技 智身科技 | PNDbotics

具身智能企业

跨维智能 | 银河通用 | 千寻智能 | 灵心巧手 | 睿尔曼智能 | 微亿智造 | 推行科技 | 中科硅纪 | 枢途科技 | 灵巧智能 | 星尘智能 | 穹彻智能 | 方舟无限 | 科大讯飞 | 北京人形机器人创新中心| 国地共建人形机器人创新中心 | 擎朗智能 | 戴盟机器人 视比特机器人星海图 月泉仿生 | 零次方机器人

核心零部件企业

绿的谐波 | 因时机器人 | 坤维科技 | 脉塔智能 | 青瞳视觉 | 本末科技 | 鑫精诚传感器 | 蓝点触控 | BrainCo强脑科技 | 宇立仪器 | 极亚精机 | 思岚科技 | 神源生 | 非普导航科技 | 锐驰智光 | NOKOV度量科技 | 因克斯 | 褔德机器人 | 巨蟹智能驱动 | 微悍动力 | 凌云光 元客视界 | 璇玑动力意优科技| 瑞源精密 | 灵足时代 Xynova曦诺未来 | HIT华威科

教育机器人企业

硅步机器人 | 史河科教机器人 | 大然机器人

加入社群

欢迎加入【机器人大讲堂】读者讨论群, 共同探讨机器人相关领域话题,共享前沿科技及产业动态,添加微信“robospeak2018”入群!


资讯配图
资讯配图



看累了吗?戳一下“在看”支持我们吧

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
动力 机器人
more
链接技术与产业生态,聚焦落地与真实场景!2025年第二届中关村具身智能机器人应用大赛持续征集报名
【机器人】美的全球首个多场景覆盖智能体工厂公开!人形机器人打通最后一公里
【智造】图解人形机器人、工业机器人、智能制造装备、人工智能芯片、智能驾驶产业链|热点聚焦
抢鲜!第十一届中国机器人高峰论坛暨第八届CEO圆桌峰会议程曝光,预约你的参会指南
超π0两倍的性能提升!机器人领域的 F1 模型,成新一代 VLA “搅局者”?
顶会收录!机器人刷视频就能学会操作?南科大×逐际动力×港大新成果
MacBook被曝将配备触控屏/Meta发布首款带屏幕AI眼镜/华为预测 2035 年 AI 发展:90% 中国家庭拥有机器人
议程发布|2025年全国机器人精密减速器与关节创新论坛
埃斯顿登顶中国工业机器人市场,汽车焊装应用彰显硬实力
《Science Robotics》封面:DeepMind发布RoboBallet,重新定义多机器人协同规划
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号