Gemini Robotics AI系统助力打造更智能、更安全的机器人。
生成式人工智能模型正逐步具备在现实世界中执行操作的能力。目前,各大人工智能公司已推出能为人们处理网络事务、订购杂货或预订餐厅的人工智能体。2025年3月,谷歌DeepMind发布了两款专为引导机器人而设计的生成式人工智能模型。
这两个模型都以谷歌的Gemini为基础,Gemini是一个多模态基础模型,能够通过处理文本、语音和图像数据来回答问题,提出建议,通常可提供帮助。虽然这两个模型被设计为可与任何硬件系统搭配工作,但测试主要是在DeepMind 2024年推出的双臂ALOHA 2系统(ALOHA意为“低成本硬件”)上进行的。
第一个新模型是Gemini Robotics,它能接收文本、语音和图像输入,然后输出控制机器人动作的指令。在演示视频中,语音指令“Pick up the basketball and slam-dunk it”(捡起篮球并完成扣篮)发出后,机械臂小心地抓起迷你篮球投入了微型篮网,虽达不到美职篮级别的扣篮水平,但足以让DeepMind研究人员振奋。
“打篮球是我最爱的例子之一。”DeepMind机器人总监卡尼斯卡·拉奥(Kanishka Rao)在发布会上表示。他解释道,该机器人“从未接触过任何与篮球相关的内容”,但其底层基础模型对篮球运动有基本认知,能识别篮网形态,并理解“扣篮”的含义。拉奥说,因此机器人“能够结合这些(概念),在现实世界中真正地完成任务”。

谷歌DeepMind机器人技术负责人卡罗琳娜·帕拉达(Carolina Parada)表示,新模型在3个方面改进了公司以前的机器人:泛化能力、适应能力和灵巧性。她指出,所有这些进步对于打造“新一代实用机器人”都是必要的。
泛化能力是指机器人将在一个场景中学习到的概念应用至其他场景的能力。研究团队研究了视觉泛化(例如物体颜色或背景的变化是否会导致机器人困惑)、指令泛化(机器人能否理解措辞不同的指令),以及动作泛化(机器人能否执行从未做过的动作)。
为展示适应能力,研究人员要求机械臂将一串塑料葡萄放入透明的保鲜盒,随后研究人员在桌上移动3个盒子来模拟找豆子游戏,而机械臂能够始终追踪这个透明的容器,直至完成任务。
灵巧性方面,演示视频显示机械臂能将纸张折成狐狸,还能执行其他精细任务。不过,机器人的这个技能依赖于一套专业化的高质量数据集的训练,这意味着它在其他场景下并不能展现这些令人惊艳的技巧。

谷歌发布的第二款模型是Gemini Robotics-ER,其中“ER”代表具身推理。具身推理是人类随着时间的推移,依靠经验积累形成的对现实世界的直觉化理解能力,例如面对从未见过的物体时,能合理地猜测它的最佳操作方式。
帕拉达举例说明了该模型的具身推理技巧:它能够识别合适的抓取位置(杯柄)来拿起咖啡杯。但这同时暴露了使用以人类为中心的训练数据的潜在缺陷:机器人不怕被热咖啡杯烫到,因此直接抓取杯身可能比抓握纤细的杯柄更可靠。
DeepMind机器人安全研究负责人维卡斯·辛德瓦尼(Vikas Sindhwani)表示,这两款新模型均配备了“语义安全”系统,可评估收到的指令及执行后果。辛德瓦尼指出,Gemini Robotics-ER模型中的这套系统更精密。这些模型“经过训练,能够评估给定场景下潜在操作是否安全”,他说。
DeepMind还发布了衡量模型对生活常识的理解能力的阿西莫夫基准。该基准包含视觉场景与文本情境的测试题,可询问模型有关生活常识的观点,例如将漂白剂与醋混合(会产生氯气,有可能造成生命危险)或将毛绒玩具放在热炉灶上是否合理。辛德瓦尼在发布会上表示,Gemini模型在该基准测试中表现优异,答题正确率超过了80%。
2024年12月,DeepMind与人形机器人公司Apptronik宣布达成合作。帕拉达透露双方正在合作“研发以Ge-mini为核心的新一代人形机器人”。目前,DeepMind已向Agile Robots、Agility Robotics、Boston Dynamics以及Enchanted Tools这4家精选的“受信任的测试者”开放模型权限。
ADC 射频 Wifi 等芯片测试线下技术研讨会
(8月5日 苏州)
