来源:深蓝AI
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

机器人与自动化研究领域正在向着历史学家托马斯·库恩(Thomas Kuhn)所描述的“范式转移”(paradigm shift)的方向发展。
数十年来,以精确算法和物理模型为核心的“模型驱动”(model-based)方法论构筑了机器人学的理论基石。不过自2012年以来,深度神经网络、随机梯度下降技术以及图形处理器(GPU)算力的协同突破,在计算机视觉和语音识别领域取得了革命性成果。特别是2022年以来,以ChatGPT为代表的视觉语言模型(VLM)的崛起,标志着“端到端”(end-to-end)的方法论进入了新的高度。
这场思辨的核心议题是:“数据与模型,谁将主宰机器人学的未来?”。这一问题不仅是技术路线的选择,更关乎整个学科的哲学基础。为了深入探讨这一议题,2025年IEEE国际机器人与自动化会议ICRA(全球该领域规模最大的学术盛会之一)特设了一场辩论。
这场辩论由三位业界巨擘共同组织,分别为:
Nancy M. Amato教授,伊利诺伊大学厄巴纳-香槟分校(UIUC)Siebel计算与数据科学学院主任、IEEE机器人与自动化协会(RAS)候任主席,以及AAAI、AAAS、ACM和IEEE四院院士,其在机器人运动规划领域贡献卓著。
图1|Nancy M. Amato教授
Seth Hutchinson教授,东北大学杰出学者,曾任佐治亚理工学院机器人与智能机器研究所执行主任及IEEE RAS主席,辩论主持人。
图2|Seth Hutchinson教授
Ken Goldberg教授,加州大学伯克利分校的权威学者,不仅在过去40年的模型驱动机器人学研究中建树颇丰,同时也是机器人学习领域的积极推动者,并当选为机器人学习基金会主席。
图3|Ken Goldberg教授
下面将结合各位专家的学术履历与研究成果,深入阐述他们各自的论点、论据及其背后的深刻洞见。
Animesh Garg:数据是不可或缺的基础
专家简介:
Animesh Garg教授是佐治亚理工学院的助理教授,同时也是英伟达(Nvidia)的高级研究员,并领导着人、人工智能与机器人(PAIR)研究小组。他博士毕业于加州大学伯克利分校,随后在斯坦福大学人工智能实验室进行博士后研究,这使他始终处于现代人工智能与机器人研究的最前沿。
图4|
核心论点:
Garg教授的立场极为鲜明:数据对于解决机器人问题而言,“并非仅仅有益,而是不可或缺且是基础性的”。他的论证建立在四大支柱之上:
1. 智能的模糊性:通用智能,尤其是在物理机器人中的体现,其定义是模糊、开放且不充分的。在缺乏“常识”的封闭解析解的情况下,数据为实现分布相似性提供了必要的指导。
2. 通过精确模型促进创新:不完整的传统物理模型可能会限制我们发现真正的最优解,而由海量数据驱动构建的精确模型则能突破这些局限,促进创新。
3. 机器人学是计算的演进:他认为机器人学是计算技术从桌面、移动端和云端向物理世界延伸的必然进化。构建机器人基础模型是一项复杂的科学事业,其过程本身就是一种科学探索,而非简单的算力堆砌。
4. 通过基础模型实现统一:正如基础模型统一了计算机视觉和自然语言处理的诸多子领域,它同样有潜力统一机器人学内部目前分散的各个研究社区,因为所有机器人都遵循相同的基本物理定律。
深度阐述与洞见:
Garg教授的辩论立场与其领导的PAIR实验室的使命“为通用自主性构建算法基础”完全一致。该实验室专注于强化学习、因果推断和3D视觉模型,并将其应用于零售、外科手术和个人服务机器人等领域。这表明他的整个研究体系都建立在一个核心前提之上:数据驱动的方法是创造能够在未知环境中获取技能并与人类协作的机器人的关键。
更深层次地看,Garg教授开篇提出的“知其然”先于“知其所以然”的类比——人类先造出飞机,而后才完全理解空气动力学,并非简单的历史趣闻,而是一种关于工程进步本质的哲学宣言。他实际上是在论证,机器人学目前正处于一个经验主义的、“知其然”的阶段。我们可以在能够推导出智能的第一性原理之前,通过观察和学习海量数据来构建智能系统。这意味着,在当前阶段,追求一个完整、优美的机器人学统一理论可能为时过早,其效率远不如通过数据收集和模型构建的经验主义过程。这种观点将数据驱动方法定位为一种不同的、更务实的科学方法论,而非反科学。
Russ Tedrake:大数据与大模型通往“物理常识”之路
专家简介:
Russ Tedrake在麻省理工学院(MIT)同时担任电气工程与计算机科学、航空航天以及机械工程三个系的教授,并兼任丰田研究院(TRI)机器人研究副总裁,其学术地位和业界影响力非同凡响。他曾领导MIT团队参加美国国防部高级研究计划局(DARPA)的机器人挑战赛,这进一步证明了他在真实世界机器人系统领域的深厚专业知识。
图5|Russ Tedrake教授
核心论点:
Tedrake教授认为“解决机器人学问题的下一个最具影响力的步骤在于大规模数据收集和大型预训练模型”。他的核心论点是,这是为机器人编程“物理常识”(physical common sense)的“最佳、甚至是唯一途径”。他指出那些真正体现灵巧性的、细微而鲁棒的恢复行为,能够从多样化的多任务数据预训练中自动涌现,这为实现“真正的开放世界鲁棒性”提供了一条清晰明确的路径。
基于实证的深度剖析:丰田研究院的大型行为模型(LBM)
Tedrake教授的论点并非空谈,而是有丰田研究院(TRI)大量的实证研究作为支撑。他在辩论中引用的论文(A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation)提供了明确的数据。
■ 研究方法:TRI的研究团队训练了被称为“大型行为模型”(LBMs)的机器人策略,具体采用了Diffusion Transformer架构。这些模型在一个包含约1700小时机器人演示的庞大数据集上进行训练,该数据集融合了内部采集数据、模拟数据以及来自Open X-Embodiment项目的公开数据。
■ 量化成果:研究通过超过1800次真实世界试验和47000次模拟试验,以统计学上显著的方式证明了多任务预训练的巨大优势。关键发现是,对一个预训练好的LBM进行微调,学习复杂新任务所需的数据量仅为从零开始训练一个新策略的1/3到1/5。研究还表明,随着预训练数据的规模和多样性的增长,模型的性能也呈现出可预测的提升。
■ 具体案例:Tedrake教授在辩论中提到的机器人学习为苹果去核和切片的例子,完美地诠释了他的观点。最令人印象深刻的并非机器人完成了任务,而是在苹果块在砧板上滑动时所做出的“细微恢复动作”。这种行为几乎不可能通过人工编码实现,但却能从LBM通过海量经验学到的“常识”中自然产生。
图6|大型行为模型(LBM)在复杂任务中的应用成果
这项研究揭示了一个更具战略意义的长期愿景。机器人数据采集的高昂成本是业界公认的瓶颈。通过证明LBM能将学习新任务的数据效率提升3-5倍,Tedrake教授的团队展示了一条打破这一瓶颈的路径。更高效的学习使得机器人能更快地掌握新技能,而新技能的执行又会生成更多的数据,进一步优化LBM。这就形成了一个良性循环:更好的模型带来更快的数据收集,更快的数据收集又催生出更强大的模型。这不仅关乎规模的扩大,更关乎构建一个基础设施,使得规模化的成本随时间推移呈指数级下降。这表明,初期在数据收集上的巨大投入,是催化整个领域自我持续改进的关键一步。
Aude Billard:数据独木难支,模型赋予其意义
专家简介:
Aude Billard教授是洛桑联邦理工学院(EPFL)的教授,领导着学习算法与系统实验室(LASA),并担任IEEE机器人与自动化协会(RAS)主席。她拥有物理学(学士/硕士)和人工智能(博士)的双重学术背景,这赋予她一种植根于第一性原理的独特视角。作为IEEE Fellow和众多奖项的获得者,她无疑是该领域的领军人物。
图7|Aude Billard教授
核心论点:
Billard教授的立场是,“仅有数据是不足够的”。她以天文学作为类比:天文学的进步源于“收集数据和优化模型之间的反复迭代”,而非简单地堆积原始观测记录。她深切担忧,如果机器人学完全依赖数据驱动,而缺乏“潜在的通用理论原则”的发展,将会走入科学的死胡同。届时,我们将无法产出像《机器人学手册》(Handbook of Robotics)那样系统化的新知识,这本手册将成为“我们唯一珍视的资源”。
深度阐述与洞见:
Billard教授的论点在她所领导的LASA实验室的研究工作中得到了充分体现。该实验室的使命是“教会机器人以人类般的灵巧程度执行技能”,专注于平滑、自适应的运动以及对干扰的即时响应。这些关于快速自适应控制、灵巧操作和计算神经科学的研究,本质上依赖于复杂的动力学、控制和学习的数学模型,而不仅仅是大型数据集。她在人机交互和模仿学习方面的工作,旨在寻找结构化、可泛化的知识迁移方式,这是一种以模型为中心的学习观。
Billard教授认为机器人学领域的进步仅仅通过在大量数据上训练出的、不透明的、庞大模型的性能来衡量,那么我们理解和解释智能的能力可能会随之萎缩,“知其所以然”将被“知其然”所取代。这提出了一个关键问题:机器人学的目标是创造功能性的工具,还是理解具身智能的原理?Billard教授明确支持后者,她将这场辩论定义为捍卫科学方法本身,想要以此反驳大规模经验主义。
Frank Park:超越盲目扩展,寻求更优的归纳偏置
专家简介:
Frank Park教授于麻省理工学院(MIT)获学士学位、并在哈佛大学获应用数学博士学位,现任首尔国立大学教授。他曾担任IEEE Transactions on Robotics主编和IEEE RAS主席,并合著了该领域的奠基性教科书《现代机器人学》(Modern Robotics)。
图8|Frank Park教授
核心论点:
Park教授指出,期望数据驱动方法在机器人领域复制其在大语言模型上的革命性成功,往好了说是为时过早,往坏了说是一厢情愿。他强调机器人学与语言、视觉领域的根本不同:真实世界数据稀缺、模拟器不可靠。因此,他反对“盲目扩展”,并倡导一种“更脚踏实地的策略”,其核心是将更优的归纳偏置(inductive biases),即先验知识和假设一一融入模型中。
基于理论的深度剖析:归纳偏置的力量
Park教授引用了Goyal和Bengio的论文来支持他的观点。归纳偏置是学习算法用于从有限的训练数据推广到未知情况的一组假设。没有这些偏置,泛化学习是不可能的。
成功案例:他指出,深度学习的突破并非源于“偶然发现”,而是来自“有意图的设计”,其中包含了强大的归纳偏置:CNN利用了图像中的平移对称性,而Transformer则利用了序列中的置换对称性。
机器人学的偏置:他认为,机器人学领域拥有大量现成的、但尚未被充分利用的归纳偏置,这些偏置来源于物理学(运动和力的模型)、几何学(低维表示和对称性)以及生物学(运动控制的抽象层次)。
具体应用:与其无休止地收集清洁浴室的视频,不如深入研究那些控制细节至关重要的任务,例如厨师如何切胡萝卜。重要的不仅是运动轨迹,还有指尖的触觉反馈、手腕的柔顺性以及过程中涉及的复杂力学。
Park教授认为机器人学并非可以简单套用为视觉和语言开发的“规模化”配方的又一个AI应用领域。他认为,具身性是机器人学的根本特征,而非次要细节。接触物理、运动几何以及真实世界的约束,不是大型模型需要通过抽象来规避的麻烦,而是问题本身的精髓。因此,他呼吁将机器人学视为其自身的伟大挑战,这是在抵制人工智能研究的同质化趋势,并倡导开发一类原生于物理世界的新模型。
Daniela Rus:物理的严谨与数据的丰富性之联姻
专家简介:
Daniela Rus教授是麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)的主任。她是麦克阿瑟天才奖获得者和美国国家工程院院士,位列顶尖科学家行列。
图9|Daniela Rus教授
核心论点:
虽然被分配到支持的一方,Rus教授却采取了一种更为审慎的立场:“我们需要数据和数学模型两者”。她认为,基于物理的模型对于简单、结构化的任务而言优雅而精确,但一旦进入复杂的现实世界,这些模型的假设就会崩溃。数据对于捕捉现实世界的丰富性至关重要,它为机器人提供了实现鲁棒性和故障恢复所需的经验。她总结道,未来的道路需要一场“学科的联姻”,将物理学的严谨性与数据的丰富性相结合。如果想要更深入地了解Rus教授关于“物理AI”如何将智能带入现实世界的思想,可以观看其在TED的演讲:网址。
基于实践的深度剖析:CSAIL的厨房测试平台
Rus教授的理念在其实验室的研究中得到了直接体现,其中最具代表性的就是“物理厨房任务测试平台”。这项研究的重点并非被动观察,而是采集丰富的、具身化的数据。
她的团队为人类演示者配备传感器,记录的不仅是运动轨迹,而是一整套多模态数据,包括:身体姿态、肌肉活动、力交互、关节扭矩、接触力以及人类的注视点。
图10|机器人学习掌握的多样化厨房与操作任务
Rus教授专注于从人类执行任务的过程中收集数据,这揭示了一个比解决操作问题更深远的目标。她所收集的特定数据模态——注视、力、肌肉活动——是传递人类意图和注意力的物理通道。通过在这些数据上构建模型,她的机器人不仅在学习做什么,更是在学习人类如何做,包括那些微妙的、非语言的交互线索。这表明,她的混合方法不仅旨在让机器人在独立工作时更具鲁棒性,其根本目标是创造能够与人协同、在人周围安全、直观地工作的机器人。
图11|从人类演示中采集的多模态数据流
这场在ICRA上演的辩论,真正的争论焦点并非我们是否应该使用数据或模型,而是应该如何将它们有效整合。
对于Garg和Tedrake而言,海量数据是构建和优化模型的基础。对于Billard和Park而言,精心设计的、带有强大归纳偏置的模型,是有效、有意义地解释数据的必要框架。而Rus则为这种整合提供了一条切实可行的路线图,展示了丰富的具身数据如何能够直接补充和完善物理模型,以应对真实世界的挑战。
机器人学的未来,不会单纯由数据或代码书写,而将由二者精密的综合体谱写。通往通用机器人的道路,既需要Tedrake所倡导的大规模学习的经验力量,也需要Park所主张的“有意图设计”的理论严谨性。最终的解决方案,很可能是一种全新的模型类别,它们诞生于数据,但在架构上深度融合了支配我们世界的物理、几何与交互的基本原则。因此,这场辩论并非终点,而是一个至关重要的催化剂,它推动着整个领域更深刻地思考构建智能机器的根本之道。
审编|阿蓝
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!