来源:RoboX
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

编辑 / RoboX
2025 WAIC虽已闭幕,但高价值的信息还有待分享。其中,由智元机器人主办的「智启具身论坛」上,多位重量级嘉宾进行了一场圆桌对话,RoboX编译整理了其中内容,供大家参考:
嘉宾阵容:
罗剑岚(主持人):智元机器人首席科学家/具身研究中心主任/上海创智学院副教授
Sergey Levine:Physical Intelligence(Pl) 联合创始人/UC Berkeley 副教授
Stefan Schaal:Instrinsic (Alphabet)科学与AI 事务负责人
苏航:清华大学计算机系副研究员/IEEE TPAMI 期刊编委
陈曦:亚马逊应用科学、前沿人工智能与机器人部门负责人
姚卯青:智元机器人合伙人/具身业务部总裁

背景:AI与机器人的本质变化
罗剑岚:目前,在机器人技术获取大量进展的同时,我们也在试图回答AI领域最深刻的问题之一:为什么AI系统能在围棋等项目中成为世界冠军,却不能做三岁小孩能做的事情?
机器人基础模型的最新进展来看,我认为构建一个计算大脑,能将计算转化为物理能力,这也部分回答了这个问题。
同时,我们也看到了一个趋势:基础研究与工业产品之间的差距正在显著缩短。例如,谷歌的Gemini项目本质上属于基础研究,但一旦开发完成,它几乎可以在第二天就上线,供全球数十亿用户使用。
那么,第一个问题给Stefan和Sergey——
Stefan,你几乎将毕生精力奉献给了机器人技术,从模仿学习、强化学习、机器人运动到操作,我们许多人都是阅读你们的论文长大的。
Sergey,你于2016年在谷歌建立了第一个机器人数据采集场,那是一个由七台库卡机器人组成的系统。
那么我的问题是,在过去十年间,到底发生了什么改变,以至于这个领域受到了空前的关注度?这一次和你们职业生涯中看到的其它次有什么不同?
Stefan Schaal:计算机视觉算法在硬件上的应用,是机器人技术能够开始感知和观察周围世界的起点之一。随着深度学习革命兴起,极大地提高了视觉处理的效率,这也要归功于二维摄像头的进步。
接着,深度学习逐渐应用于基础模型。与此同时,它从一个被认为无法在大规模系统中应用的技术,发展到现在已成为可计算、可实现的技术。

Sergey Levine:是的,现在的一大变化是,学术界对「规模」以及「可扩展学习系统」的重要性有了更深刻的认识。
过去,即使在计算机视觉领域,人们也并未完全认识到规模和可扩展学习的重要性。
而在机器人领域,数据难以获取,实验难以开展,特别是在实验室环境中,能拥有一台机器人进行研究就已经很幸运了。
这导致研究人员形成了一种思维模式,即他们必须在小规模上取得成果,而这种成果往往只是大规模应用的「原型」,本质上还是小规模方法。
在使用机器学习时,很难摆脱这种小规模模式。如果你在小规模学习上取得成果,并试图逐渐扩大规模,往往会遇到问题。
而在机器学习、计算机视觉和自然语言处理等领域,我们已经学到了宝贵的一课:大规模、简单且通用的学习系统,能够让我们避开许多将小规模学习应用到现实世界时所面临的复杂问题。
因此,我认为现在的不同之处在于,我们正在思考如何利用来自多个机器人的数据,如何将这些方法应用于不同环境、不同任务,甚至不同机器人之间的迁移。我认为,在机器人领域接受可扩展学习的观点,是使这个时代与以往不同的关键因素之一。

从「单一任务」到「行为集合」
罗剑岚:我们的科学研究方式已经发生了根本变化,传统的小规模实验室实验已不再适用,必须进行大规模研究。那么,这对机器人技术意味着什么?
Stefan Schaal:我们突然进入了实证科学的世界,进入了大数据时代。这是首次有机会真正将机器人技术扩展到各个领域,甚至是更通用的领域。现在,机器人正在从学习「单一任务」发展到学习「一类任务」,甚至是完整行为集合。
真正的挑战,在于如何实现高性能,这是一个艰巨的任务,也是我一直担心的问题。如果你想从90%的性能提升到99.9%的性能,可能需要彻底重新思考方法。
这种情况在某些领域已经发生过,也可能在我们身上发生——我们可能会在这个新的数据科学领域找到另一种方法来解决这个问题,我还不知道答案,但这将非常令人兴奋。
Sergey Levine:我从大规模机器学习世界中学到了一个有趣教训:与其构建更复杂的系统,有时我们应该构建更简单、可扩展性更强的系统。
2010年代末到2020年代初的自然语言处理领域,就经历了这样的变化。当时,每个自然语言处理任务都是独立的领域。然而,最终大型语言模型的出现,吸收了许多这些专门技术。
当然,毕竟机器人与网络代理不同,它是一个高度集成的学科。但我认为,作为机器人专家,我们必须谨慎思考哪些系统构建应该简化,并通过大规模学习来解决。
机器人技术确实需要高度的鲁棒性和可靠性,而这很难从更多相同类型的学习技术中获得。我们也应该非常谨慎地思考在哪里增加复杂性,在哪里强调简单性和规模。
相关阅读:机器人大神Sergey Levine详解:VLA+强化学习,会催生更强大的系统
「没什么能比得上真实数据」
罗剑岚:机器人技术需要什么样的数据?数据的多样性和质量又该如何考量?
陈曦:机器人技术与大语言模型、视觉技术的关键区别在于,我们最终需要解决一个物理系统的问题。这意味着我们的数据也必须来自物理系统。当然,你可以通过模拟、人类示范等方式收集一些代理数据,但最终,没有什么能比得上机器人在实际环境中操作并收集数据。
这一直是扩展机器人技术的瓶颈之一,因为它在很大程度上是孤立和碎片化的——研发项目分布在许多不同的学术实验室中,通常由计算机科学专业的学生构建系统,他们通常不是硬件工程师或专家。
然而,在最近这一波对人工智能和机器人技术的兴趣和投资浪潮中,许多公司都愿意并有能力进行大量投资,这使我们能够获得更多可用于运行策略和收集数据的物理系统。
因此,我对这个问题的简短回答是:你最终需要大量的物理机器人,以及来自这些物理机器人的数据。
苏航:对于具身人工智能来说,我们有时也会使用一些模拟数据,或者使用视频数据来训练。但我相信,在未来,真实数据将会变得非常重要,我认为我们将会拥有大量真实数据。
我认为,真正的瓶颈在于如何高效地收集数据。目前,远程操作数据的收集效率并不令人满意。而「机器人自主收集数据的方法」可能会更加高效,这意味着我们可以扩大数据收集规模。
因此,尽管目前自主收集数据的方法并不完美,但我相信,在不久的将来,这将成为数据注入的一种可能性。只要我们有大量的真实机器人,就意味着可以拥有大量数据集。
那么,如何利用这些数据呢?对于终身学习来说,这意味着我们需要一个闭环的数据重用机制。这可能是未来数据利用的方向。

罗剑岚:我们应该如何获取数据?真实数据、模拟器还是其他方式?你们怎么看?
Sergey Levine:真实数据非常重要。如果我们看看其他领域,机器学习之所以能在这些领域取得成功,是因为我们能够有效地利用大规模的真实世界数据集。
这并不意味着我们只应使用真实数据,但的确需要获取大规模的机器人数据集,并利用它来学习对物理交互的通用理解。
一旦我们拥有了一个对真实世界中的物理交互有良好理解的模型,它就能更好地吸收其他来源的数据,也就能在机器人技术上取得更大进步。因此,我认为模拟技术并不是推动机器人技术发展的关键,相反,大规模真实世界数据集可能会推动机器人理解各种其他类型数据的能力。
姚卯青:每种数据收集过程都有其自身的成本。例如,人力成本、存储成本,数据量也与训练模型所需的计算量相关。因此,有时候某种方式收集数据可能更便宜,但存储和消耗数据的成本却更高。
此外,我认为从长远来看,为机器人技术收集数据花费数百万、数十亿甚至更多资金,我认为这并非是不可承受的——Meta的超级智能实验室雇佣研究人员的成本就高达12亿美元,这些资金完全可以轻松获得数亿条轨迹数据。
如果这是解锁人工智能的密码,我认为任何科技巨头或国家都不会犹豫投入这笔资金。最终,问题不在于如何获取数据,而在于如何从不同应用领域和行业中获取最具代表性的数据。
我非常同意Stefan之前的观点,我们需要大量在现实世界中工作的ASI系统,以获取最有价值的数据,甚至是那些边缘案例和失败案例,以帮助我们有效地迭代系统。
因此,当我们有数百万台机器人在现实世界中部署时,我们的问题将不再是如何以低成本获取数据,而是如何从数十亿甚至数万亿条轨迹中筛选出最有用的数据,因为我们无法承担存储和计算所有数据的成本。
通用性 or 专业化?
罗剑岚:如果我们想构建一个能够像人类一样在物理世界中感知、推理和行动的机器,它就必须被放置在现实世界中,与环境互动,并生成大量的互动数据。
最终,我们将拥有各种异构数据。我们的问题将不再是数据量的多少,而是如何处理这些数据。
Stefan,你提到过,目前我们既需要性能也需要专业化。而Sergey则认为,我们应该将通用性作为首要考虑因素。我对你们两位在通用性与专业化方面的观点很感兴趣。
Sergey Levine:显然,我们需要机器人能够在特定的应用领域中发挥作用,这就意味着至少要在一定程度上专门化。但我认为,阻碍机器人在开放世界环境中应用的一个主要因素,是它们处理各种意外情况的能力。
这意味着,机器人需要具备通用能力。因为通用能力本质上能带来鲁棒性。
要想克服这一障碍,使机器人在现实世界环境中具备常识,这将是一个巨大的进步。一旦达到这一点,我们就可以开始在现实世界中部署机器人,让它们积累经验,并变得越来越专业化。
Stefan Schaal:我认为,关键在于你想要机器人做到什么任务、多快能够做到?这些都是不同的路径。通用性显然是我们所有人都渴望的,但如果你更关注工业任务,那么现在工业领域越来越倾向于高混合、低产量的生产模式,这意味着事情变化很快。
当事情变化很快时,人们不希望花费半小时、一小时甚至几天的时间来重新训练模型。因此,你需要快速概括和适应基础模型的方法。
我认为,无论你选择哪条路径,都希望能产生数据,这些数据可以用于下一个机器人,使其变得更好,更通用。这些只是不同的路径,取决于你是想在两年内将机器人交付给客户,还是还有更多的时间来实现这一目标。
产学研之间的鸿沟
罗剑岚:在机器人领域,学术界和产业界之间一直存在差距,这种差距在机器人领域尤为明显。
通常在学术论文中,你做了一些研究,录制了视频上传,然后就结束了,你不再关心之后会发生什么。因此,我想问问你们两位都有在学术界和产业界都有工作经验的嘉宾,如何才能缩短这种差距?
陈曦:首先,机器人应该24小时不间断工作——如果你的策略出了问题,你就需要回去修复它。你要对你的策略、你的模型的质量负责,这样你也可以体验到你的模型在各种长尾情况下如何失败,并研究如何改进系统的通用性和鲁棒性。
在机器人领域,仍然有大量的前沿研究需要完成,学术界仍然是培养人才和进行前沿研究的最佳场所。但与此同时,很多学术研究人员并不真正了解我们需要解决的实际问题。
因此,我认为产业界有义务将一些问题、一些动机带回学术研究。据我观察,很多学术研究人员也有动力去研究更接近现实世界的问题。因此,我希望在未来几年内,这一差距能够逐渐缩小。
Stefan Schaal:要想从原型发展到真正能用的产品,你可以和合适的人一起努力实现这种技术转移,也可以在选择研究的问题设置时,就选择一些对初始性能不太敏感的领域。因为,并非所有领域都像汽车行业那样,必须达到99.999%的完美才能工作,还有其他一些领域对失败更加宽容。
谷歌的Everyday Robots项目中的垃圾分类就是一个很好的例子——这种工作只需达到90%以上的准确率就可以了。
还有一些领域,你可以让一个人在那里监督几个机器人,然后随着时间的推移逐渐提高性能,因为这可能需要一些时间,并最终需要更多的数据。
最大难题:Manipulation
罗剑岚:我们主要关注的是导航、移动和操作。你们认为这三个领域中,哪一个目前对我们来说是最具挑战性的?我们应该如何解决它?
Sergey Levine:我认为操作是最难的,因为操作需要你理解一个非常多样化和复杂的世界,并与它进行物理交互。对于导航来说,我们需要理解一个复杂的世界,但我们与它的物理交互通常相对简单。
而对于移动来说,虽然是物理交互,但相对简单,因为真正被施加力的对象只是机器人本身。
「操作」是真正将所有最困难的挑战融合在一起的领域。我怀疑,如果我们能找到一个通用且广泛适用的机器人操作解决方案,那么无论我们想出什么方法来做到这一点,都将为我们解决其他问题提供一个良好的开端。
这并不是说没有人应该研究导航或移动问题:将问题领域隔离起来,使其不那么复杂,不包含那么多困难因素,可以让我们通过单独解决一个挑战来取得很大进展。
Stefan Schaal:我同意这个观点。一切有趣的事情最终都会融合在一起。因此,我们已经对固定基座的机械臂进行了操作研究。
但我认为,我们离真正做好还差得很远。
单独来看,移动技术在近年来已经变得相当成熟和出色,而导航技术本身,虽然同时定位与地图构建(SLAM)已经存在很长时间了,但在隔离状态下进行导航,即在充满感官输入和不确定性的世界中进行导航,就像自动驾驶汽车必须解决的问题一样,显然要困难得多。
但现在,你可以把所有这些技术融合在一起,应用到人形机器人上,所有这些难题都融合在了一起,你不仅要维持移动中的本体稳定性,还要在移动中进行操作。
在这其中,操作仍然是最不成熟的领域。这就是事实,我们必须在这方面取得进步。
陈曦:我想提出一些不同的看法:虽然我同意「操作」是这三个领域中最不成熟的领域,但我认为,将操作视为唯一的核心问题并不完全正确。(这是对两位嘉宾观点的夸张概括)
因为我们有针对移动和导航的很多解决方案,但它们并不共享与操作相同的方法论基础。比如,我们使用SLAM来解决导航问题,然后使用某种局部实时策略来解决局部移动问题,然后再用完全不同的方法来解决操作问题。这并没有建立起我们对所追求的物理世界的常识性理解。
因此,从某种意义上说,我们还有其他方法可以用来解决导航和移动问题。但我们还面临着一个更根本的常识性理解问题,这正是我们希望通过基础模型来解决的。

未来3-5年的前沿方案
罗剑岚:我认为人们现在对解决机器人问题的不同方法有不同的看法。有人说应该通过模拟来解决,有人说应该收集数十亿条真实世界的数据轨迹,还有人相信模型的力量。
那么,未来三到五年内,机器人领域的前沿会是什么?
Stefan Schaal:我最想回到的一个话题是持续学习。我们已经有了使用较小机器学习模型的持续学习方法,自适应控制也是一种可以证明其有效性的方法。但如何将这个概念应用到大型模型和大规模模型中呢?
我们的机器人大多数时候都在学习一些东西,然后执行任务、评估效果,然后再开始学习。我们仍然担心如何不断添加数据而不破坏系统,不让系统失控或做出糟糕的事情。
姚卯青:我同意这个观点。我认为下一个前沿可能是从反馈中学习。目前,我们的学习策略是先有硬件,然后训练策略。而在未来,我们可能会先有一个策略,然后通过与环境交互来不断对其改进,同时从反馈中学习。目前,我认为对于强化学习来说,效率可能并不是非常理想。因此,如何最好地利用反馈将是下一个前沿。
Sergey Levine:也许我可以补充一下。我认为在接下来的几年里,我们还没有从根本上验证在具身智能领域中扩展法则的所有假设,问题是我们还没有足够的数据量来与语言领域相媲美。
在接下来的几年里,我们可能仍需要坚持这种推断,看看我们会达到什么瓶颈。
而且,与语言领域不同的是,机器人处理的是离散化的符号标记或表示,但现实世界是连续的,更加复杂的,我们与世界有各种各样的交互。我认为这些都是我们想要征服的真实前沿。
陈曦:我认为,越来越重要的问题将是如何使用机器人自主收集的数据,即使这些数据可能并不完美。
因为我们正在开发能够将机器人带出实验室,并进入现实世界的技术。一旦某样东西变得有用,人们就会大量制造它,就像汽车行业的案例。
如果我们能有成千上万甚至数百万台机器人时,那么最重要的就是如何利用它们自然收集的经验来改进它们。这些经验可能不如远程操作数据那么高质量,我们也无法像控制模拟器那样紧密地控制它们。但这将是这些系统获取大量额外知识的重要来源,我们必须想办法利用它们。
对青年人才的建议
罗剑岚:今天在座的有很多学生和研究人员,其中很多人在过去两年内进入了这个领域。你们对年轻研究人员和学生有什么建议?对于未来的前沿领域,你们最兴奋的是什么?
陈曦:我最兴奋的是看到更多机器人执行有用的任务。
虽然我们没有互联网这样的数据源,但我们有一个不同的机会——我们可以从一开始就构建对机器人预训练更有用的数据。
如果在座的学生和研究人员,尝试用机器人解决大量有用的问题,那么我们就能获得非常有用和有趣的数据。我们有机会从头开始构建一个非常有价值的数据集,而不需要(像互联网数据那样)从大量垃圾中筛选出有用的信息。
Stefan Schaal:我们试图进入物理人工智能领域。因此,我的建议是学习物理学、人工智能和机器学习。同时,你还需要学习大数据科学,因为现在这些都紧密相连。为了实现物理人工智能,我们需要具备所有这些领域知识的人才。
Sergey Levine:我认为在选择研究课题时,要仔细思考这个问题是否仅仅是为了解决便利性问题,还是有可能解决一些根本性问题。
由于我们必须在一定程度上保持实用性,我们往往会陷入一些较小的思维模式中。例如,考虑如何解决实验室中只有一台机器人、数据昂贵或计算昂贵时遇到的特定挑战。
有些研究根本问题的工作,最初看起来可能并不实用,但在长期内,在规模更大、资源更多的情况下,它们可能会变得非常重要。
保罗·克里斯蒂亚诺关于基于人类偏好的深度强化学习的工作就是一个例子:当这项工作完成时,他通过在一个小型模拟跳跃器上实现后空翻来测试它,这看起来似乎让深度强化学习变得更加不实用,因为它需要人的参与来提供偏好。但多年后,这成为了基于人类反馈的强化学习(RLHF)的基础,现在我们经常用它来微调大型语言模型。
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!