

给VLA加上「Thinking」
上图展示了:在机器人收拾伦敦之行的行李时,会先查看天气预告,然后思考 “伦敦可能下雨”,最后主动把雨伞放进箱子。
这是 Google DeepMind 最新发布的 Gemini Robotics 1.5——具备自主推理与决策能力的“智能体”。
长期以来,具身智能的发展深陷于三大核心瓶颈:技能难以泛化、任务缺乏连贯逻辑、推理与现实动作严重脱节。
而 Gemini Robotics 1.5 的突破性意义,在于它以 “多模态大模型”为核心,近乎完美地打通了感知、推理与行动的闭环。

技术背景
研究团队发现,传统 VLA 模型虽能从指令生成动作,却无法在复杂、多步任务中保持连贯性。
于是他们提出了一个全新的思路:让模型在行动前先“思考”一会儿——
这就是 “Thinking VLA” 的概念。

▲图1|Gemini Robotics 1.5 由两大核心组成:一是 Gemini Robotics 1.5(VLA),负责从视觉和语言中生成动作;二是 Gemini Robotics-ER 1.5(VLM),专注于“具身推理”,也就是让模型理解空间、时间和物理世界的规律。当这两者结合,就形成了一个“会思考、能行动”的智能体框架(agentic framework)——先观察、再思考、再执行任务,实现从感知到行动的真正闭环©️【深蓝具身智能】编译
Thinking traces:
Gemini Robotics 1.5 在执行前,会先生成一段语言化的“内心独白” ——它会先自问“我现在要做什么”“下一步该怎么做”,再把这些思考转化为低层动作指令。
Motion Transfer (MT)
与此同时,团队还为模型加入了 MT 机制,能让它跨越不同机器人形态(如 ALOHA、Franka、Apollo)共享技能。
这意味着,同一个模型可以操控机械臂、双臂协作机器人甚至类人形体,无需为每种机器人单独训练。

最后,他们把具身推理模型 Gemini Robotics-ER 1.5 与 Thinking VLA 结合,构建了一个“会思考的行动系统”——
前者负责理解任务、制定计划;后者则负责执行并在行动中反思。

技术亮点
Thinking Before Acting:行动前的语言思考机制
在以往的视觉语言行动(VLA)模型中,感知到的图像会被直接映射为动作指令,这种“反应式”机制在复杂任务中容易失误。
而在 Gemini Robotics 1.5 中,研究团队引入了 Thinking 模式:
这种机制让模型能把一条长指令拆解成更短的子任务,并能根据执行结果自我修正。
如“整理衣服”被拆成“把夹克拿起来”“放入箱中”。

实验显示,启用思考模式后,任务完成度显著提升,机器人还具备了更好的任务意识与恢复能力——
比如在水瓶掉落时,能自动生成“用左手捡起水瓶”的新思考链,表现出一种近似自反的行动智能。

▲图2|“三思而后行”:Apollo 人形机器人打包行李的全过程,从左到右、从上到下,是 Thinking VLA(思考型视觉-语言-行动模型) 的一次完整执行过程。画面中,Apollo 人形机器人正在把物品装进白色袋子。每一帧图像上方叠加的文字,正是它的“思考轨迹”——从文字中我们能够直观的感受到机器人对于当前任务的理解和未来动作的推理©️【深蓝具身智能】编译
Motion Transfer带来多体态技能迁移的新范式
过去每个机器人都需要独立训练,数据浪费巨大。
GR 1.5 引入了全新的 Motion Transfer(运动迁移) 训练机制,使其能跨不同机器人形态学习统一的运动理解。
这一机制让模型从多平台(ALOHA、Bi-arm Franka、Apollo humanoid)的大规模操控数据中学到动作与物理交互的共性,从而实现真正的多形态协同学习。

▲图3|Gemini Robotics 1.5 能做到真正的“一脑多身”——同一个模型(同一组参数),就能同时控制三种不同形态的机器人,从机械臂到人形体,各自完成不同任务,几乎开箱即用;©️【深蓝具身智能】编译
机器人因此可以从多平台数据中学会“动作的本质”,实现不同硬件间的零样本技能迁移。
具身推理模型的全面进化
Gemini Robotics-ER 1.5(GR-ER 1.5)在具身推理上达到当前最先进水平。
它在 15 个学术基准上(如 CV-Bench、RoboSpatial、Where2Place 等)大幅超越 GPT-5 与 Gemini 2.5 系列,在空间理解、物理约束和语义逻辑等任务中全面领先。
GR-ER 1.5 不仅能回答文字-图像问答,更能进行空间与物理层面的思维:
在“复杂指点(Complex Pointing)”任务中
模型能理解诸如“指出比10磅轻的物体”或“指向电源插座孔”的语义约束,生成精确的空间点或轨迹;

▲图4|Gemini Robotics-ER 1.5 的一些功能,包括物体检测和状态估计、分割掩码、指向、轨迹预测和任务进度估计和成功检测。
在“进度理解(Progress Understanding)”任务中
模型能判断多步任务完成度、识别任务成功与失败,甚至对打乱的任务视频进行时间顺序重排。

▲图5|这张图展示了 GR-ER 1.5 在任务进度理解(Progress Understanding)方面的多种能力。©️【深蓝具身智能】编译
要让机器人判断“任务做到哪一步了”,它必须具备空间、时间与语义三种推理能力——
不仅看得见物体,还得理解动作顺序与任务目标。
上方的示例展示了模型预测任务完成百分比的过程:左下角是多视角成功检测,在任务“把橙色饼干包从篮子放进蓝碗旁的架子上”中,单个摄像头的信息不足以判断是否完成,模型需要整合多个视角来得出结论;右下角则展示了另一种形式:视频解序,模型需要理解时间顺序才能把打乱的视频帧重新排列正确。
这些能力体现了它在视觉-语言-物理一体化推理上的进展——不仅“看懂场景”,还真正理解动作的物理意义与执行逻辑。

实验验证
研究团队在三个平台上进行了 230 项任务测试:ALOHA、Bi-arm Franka 和 Apollo Humanoid。
实验结果
泛化能力
在视觉、指令、动作、任务四个维度,Gemini Robotics 1.5 的平均任务进度比分别超过旧版本 20% 以上。

▲图6|这张图展示了 跨形态评测(Cross-Embodiment Benchmark) 的结果。©️【深蓝具身智能】编译
在左侧,Gemini Robotics 1.5 展示出零样本迁移能力:
它能在未见过的机器人上完成任务——这些任务原本只在另一种机器人形态上训练过。
右侧举例说明了这种“知识迁移”的过程:
模型先在一种机器人(如机械臂)上学会抓取与放置,再直接在另一种机器人(如人形体)上执行,依然能完成任务。
Thinking 模式大幅增强多步任务完成率
比未启用思考机制的版本提升 15–25%。

▲图7|这张图展示了在多步任务基准测试中,Gemini Robotics 1.5 在启用“思考模式(Thinking)”与未启用时的对比表现。当模型在推理过程中加入“思考环节”,也就是在执行每一步前先进行语言化的内部推理——任务完成度明显提升,动作更连贯,错误率更低©️【深蓝具身智能】编译
具身推理性能刷新 SOTA
在多项空间与视觉推理基准中,GR-ER 1.5 全面超越 GPT-5 与 Gemini 2.5 Flash,在复杂指点、任务进度预测等任务上表现最强。

此外,当两者组合为完整 Agent 后,机器人在长程任务(如“整理书桌”“烹饪蘑菇烩饭”)中的成功率接近 80%,是传统组合系统的两倍。

▲图8|GR 1.5 能在复杂的多阶段任务中保持高成功率,真正做到“能想长远、能做到底”,这让机器人不再只是完成短指令,而是能一步步实现完整目标©️【深蓝具身智能】编译

总结
Gemini Robotics 1.5 它不只是执行命令的机械体,而是在用语言、视觉与行动一起去理解世界。
无论是跨形态的技能迁移,还是多步任务的自我规划,这套系统都在展示一个清晰的未来图景——机器人不再只是工具,而是能共建世界的智能体。
编辑|阿豹
审编|具身君
Ref
论文题目:Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer
论文地址:https://arxiv.org/pdf/2510.03342
项目地址:https://generalist-locomotion.github.io/
>>>具身智能线下实训营第06期【最后2个名额】<<<

【具身宝典】||||
【技术深度】|||||||
【先锋观点】|||
【非开源代码复现】||
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。
投稿|商务合作|转载:SL13126828869(微信)

点击❤收藏并推荐本文