具身智能下一个十年看什么？语言推理是绕不开的关键！

具身智能下一个十年看什么？语言推理是绕不开的关键！图1

之前我们聊过“AI的下半场”，说的是AI的焦点将从“训练模型”转向“定义任务”和“衡量效用”。这不仅是一场范式转变，也对各个AI应用领域提出了全新挑战。

今天，我们把焦点收得更窄：落到具身智能。因为泛化性的问题，在机器人身上会被放大十倍。

如ChatGPT，Deepseek等大语言模型在知识储备层面已经达到了人类的博士水准，但由它们作为大脑控制的机器人还需要大量的人类示教、环境先验才能完成简单的任务。

要让机器人既能“想清楚”也能“做正确”，就必须从语言、推理，一步步走到行动。

在具身智能的很多核心方向里——比如 VLA（视觉-语言-动作）和 VLN（视觉-语言导航），语言都是绕不开的中间层。它既是连接感知与控制的接口，也是泛化的关键。

最近，我们关注到 OpenAI 研究员姚顺雨在一次长访谈里，提出了很多与此相关的思考。基于此次访谈内容我们挑出了其中最值得具身智能机器人领域关注的四个锚点，看看具身智能的下半场该怎么走。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

具身智能下一个十年看什么？语言推理是绕不开的关键！图2

从语言到行动：推理才能带来泛化

“语言是人为了实现泛化而发明出来的工具……推理才能带来泛化。”

这句话放到具身智能领域，恰好点中了痛点。

过去的大模型在语言任务里表现惊艳，但多数时候只是“在答案里找答案”

——类似选择题。

而现实世界的复杂性远不止于此：机器人面临的是开放的行为空间，环境不可预设，任务可能模糊甚至临时变化。想在这样的环境里生存，模型必须具备推理能力，才能从有限经验里归纳出通用规则。

这也是为什么在具身智能的核心方向里，语言始终是绕不开的那座桥梁

在 VLN 中

机器人要听懂“穿过走廊，左转，到门口”这样的指令，不仅要解析语义，还要推理出“我目前所处的位置、可能的路径选择，以及目标门口的方位”。

具身智能下一个十年看什么？语言推理是绕不开的关键！图3

▲图源 |

在 VLA 中

面对“把桌上的杯子放进水槽”这样的自然语言命令，机器人必须先通过视觉感知定位“杯子”和“水槽”，再分解成抓取、移动、放置等动作序列，还要实时监控执行中可能的偏差。

换句话说，语言不仅仅是沟通的工具，而是泛化的接口。

它把高度复杂的世界状态，压缩成一种可操作的表征，使得机器人能够“想一步、走一步、再想一步”。

也由此可见，语言和推理之间，其实是一种相辅相成的关系。

语言的作用，是把复杂经验抽象成符号：

比如“门口”“水槽”“走廊”，这些词本身并不固定对应某一个具体环境里的物体，而是一类概念。

正因为有了这种抽象，机器人才能把不同场景里出现的“门口”统一起来处理。

但光有语言还不够。

具身智能下一个十年看什么？语言推理是绕不开的关键！图4

▲图源 |

推理的作用，是在抽象概念之间建立联系：

当机器人听到“穿过走廊，左转，到门口”，它不仅要理解“门口”这个词，还要推理出：当前位置→走廊的延伸→左转→门口的空间关系。

推理让抽象的语言符号真正“落地”到行动序列。所以说——

“

没有语言，就没有抽象的统一表达；

没有推理，语言就停留在符号游戏；

这也是为什么在具身智能里，语言模型被当作“决策接口”。

在 VLN 任务中，它把语言指令转化为导航行为；在 VLA 任务中，它把自然语言拆解为操作步骤。

语言提供抽象，推理保证泛化，二者共同让机器人能在陌生环境中“想一步，走一步，再想一步”。

对于具身智能机器人来说：

语言是通用决策接口，而非任务终点。

推理才是泛化的源头，是让模型从一个场景走向另一个场景的钥匙。

只有把推理接到传感—控制闭环，机器人才能从“会想”变成“会做”

任务与奖励：把“可验证”拉回焦点位

“我更倾向结果导向、白盒的 reward；像数学、代码这类任务之所以有效，是因为结果可判定。”

在模型研究里，我们常常关注“模型能不能学会做某件事”。但到了真实世界，问题立刻变了味：

——用户更关心结果是否可验收。

这就是“可验证”的重要性。

为什么在数学证明、代码生成这些任务里，大模型能不断迭代？因为结果对不对，有一个清晰的判定标准。

反观许多现实场景，比如“把垃圾桶推到指定位置”，它的完成标准往往含糊：

推近一点算不算？翻倒了垃圾桶还算成功吗？

如果连 reward 都不清晰，模型就容易学成“演示好看，落地难用”。

姚顺雨在访谈里区分了两种常见的指标：

Pass@k：

多试几次，至少成功一次就算通过。研究阶段常用，允许探索和试错。

Pass^k：

每一次都必须成功。生产环境必须要求，强调稳定性和复现。

这两种指标的差异，对机器人尤其重要。

具身智能下一个十年看什么？语言推理是绕不开的关键！图6

研发阶段，探索性强的 Pass@k 可以帮助模型快速找到可能的解法；但一旦进入交付场景，真正重要的就是 Pass^k —— 次次都要稳。

一个仓储机器人，如果十次里有一次把货摔了，用户的感知不是“90%成功”，而是“这东西靠不住”。

因此，在具身智能里，“任务–环境–奖励”的重新定义，是进入下半场的第一步：

先把目标定义清楚：

什么才算完成？什么算失败？要有白盒式标准。

把 reward 对齐到业务价值：

不是模型的损失函数，而是工单闭环率、一次成功率、能耗/时延、安全事故数。

用研发态和生产态的双轨思维：

研发期可以探索和犯错，生产期必须追求 SLA（服务等级协议）级别的稳定。

否则，机器人可能在实验室里表现惊艳，到了真实环境却“水土不服”。

对于具身智能机器人来说：

Reward 要能验收：像数学和代码一样，结果可判定；

研发态容错，生产态稳健：Pass@k 在前，Pass^k 在后；

评估指标要贴近业务：否则只能停留在“实验室的炫技”。

Affordance：机器人需要世界模型+“技能库”

“对 AI 来说最重要的 affordance（环境给予行动者的可能性）可能就是 code；对人，是手。”

这句话其实揭开了一个关键隐喻：代码之于 AI，就像“手”之于人类。

因为代码/API 是可以被分解、组合和复用的。它是 AI 在数字世界里操纵环境的方式：通过调用不同的函数，AI 就能写程序、自动化任务，甚至完成一个系统级工程。

这种“可调用、可验证、可组合”的特性，恰恰就是人类的手在现实世界里的功能

——能抓取、能拼装、能操作。

放到具身机器人身上，问题就变得清晰：机器人要想拥有和代码一样的“组合能力”，必须同时具备两样东西：

世界模型（World Model）

它让机器人知道“环境现在是什么样”，并且能预测“下一步会变成什么样”。

视觉、激光雷达、触觉、力觉……所有传感器的输入都需要被压缩成统一的时空表征。这不是单纯的语义标签，而是一种可预测、可验证的动态模型。

回答类似于：如果我推这扇门，它会开还是会卡住？一类的问题。

具身智能下一个十年看什么？语言推理是绕不开的关键！图8

▲图源 |

技能化的“手”

如果说世界模型是“眼睛+大脑”，那技能库就是“手”

——抓取、推拉、插拔、拧转、导航，这些动作必须像 API 一样被组织起来。

输入条件（比如抓取需要目标位置、姿态）
预期结果（抓起后应当悬空）
失败恢复机制（如果没抓住，是否再试一次，还是切换策略）

这样，机器人就能像调用函数一样，去调用一段“动作模块”。

当这两者耦合起来，机器人才能完成真正的闭环：

“

没有世界模型的“手”，只是盲目操作；

没有技能库的世界模型，就成了只能“看热闹”的描述系统。

这也是为什么很多机器人演示视频看上去“会做很多事”，但真正落地时会频频翻车：

不是技能库碎片化、缺乏调用逻辑，就是世界模型不具备预测和验证能力。

具身智能下一个十年看什么？语言推理是绕不开的关键！图9

所以，具身智能的关键之一，就是要构建工具图谱（Skill Graph）：

从动作原子到组合策略，再到错误恢复。让机器人能像 AI 调用 API 一样，去灵活调度自己的“身体”。

对于具身智能机器人来说：

代码是 AI 的手，能被组合、调用和验证；

机器人需要“手+世界模型”，否则不是盲做就是空想；

真正的突破点在于：把动作做成“工具图谱”，让机器人能像调用函数一样调用技能

记忆与组织：从个体可靠到系统最优

“长期记忆、内生奖励、多智能体。”

这三个词放在具身智能里，几乎就是从“单机演示”走向“系统落地”的必经之路。

长期记忆（Long-Term Memory）

很多人容易把“大模型的长上下文”误解为“长期记忆”。但二者不是一回事：

长上下文更像是“一次对话能记多少内容”；
长期记忆则是“过去的经验能不能在未来复用”。

具身智能下一个十年看什么？语言推理是绕不开的关键！图11

▲图源 |

对机器人来说，长期记忆至少分三类：

① 任务记忆：我接过什么任务，还剩下哪些没完成？

② 环境记忆：哪些地方走过，哪里是禁区，哪里有障碍？

③ 情景记忆：我上次失败是因为什么，如何避免重蹈覆辙？

如果机器人没有这些分层记忆，每一次启动都像“失忆”，只能从零开始探索。

真正的智能，应该能在遮挡后恢复目标，在长时间任务中保持连贯，甚至能从失败中学习。

内生奖励（Intrinsic Reward）

在实验室里，我们往往用显性的 reward 来训练模型，比如“到达目标+1分，撞墙-1分”

——但现实世界中，即时回报往往缺席。

机器人打扫房间时，没有人会每擦干净一块地板就打分。

这时，内生激励就很关键。比如：

好奇心：鼓励机器人探索新区域；
掌控感：奖励能准确预测结果的行为；
安全性：对避免高风险的操作给予隐性加分。

这些内生奖励让机器人更像“自驱动”，而不是“只有拿到外部分数才工作”。

多智能体（Multi-Agent Organization）

单个机器人能做的事终究有限。一个清扫机器人可能需要半天打扫大楼，但十台机器人协作，效率立刻翻倍

——关键在于：组织架构和协作机制。

具身智能下一个十年看什么？语言推理是绕不开的关键！图12

▲图源 |

角色分工：谁负责感知，谁负责规划，谁负责执行。
协同协议：任务如何拆分，结果如何合并。
共享记忆：用黑板/事件总线共享环境信息，避免重复劳动。

评价标准也要改变：从单机的“成功率、速度”，转向系统层面的“任务吞吐率、冲突率、容错性”。

对于具身智能机器人来说：

长期记忆 ≠ 长上下文，关键是能在未来复用经验；

内生奖励让机器人不再“等分数才干活”；

多智能体协作比单机更接近现实生产力，考验的是组织与架构。

总结

上次我们聊“AI的下半场”，聚焦于大模型的转折点；这一次，借着 OpenAI 研究员姚顺雨的访谈，我们把目光落到了具身智能上。

可以看到，四个关键词几乎勾勒出了具身智能的必经之路：

语言与推理：让机器人不只是会说，更是会想、会做；
任务与奖励：把“可验证”拉回 C 位，从炫技走向稳健；
Affordance：既要有能预测世界的“大脑”，也要有能调用技能的“手”；
记忆与组织：从单机可靠到群体协作，才能迈向真正的生产力。

如果说大模型的上半场是“对话框里的聪明”，那么下半场就该是“真实世界里的可靠”。

当推理、奖励、工具和记忆逐渐成型，机器人才能从“演示品”走向“现场合伙人”。

你觉得具身智能会最先在哪个小领域「飞入寻常百姓家」？

编辑｜阿豹

审编｜具身君

工作投稿｜商务合作｜转载

：SL13126828869（微信号）

【具身宝典】｜｜｜｜

【技术深度】｜｜｜｜｜｜｜

【先锋观点】｜｜｜

【非开源代码复现】｜｜

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？‍

欢迎关注【深蓝具身智能】👇

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成，希望各位遵守原创规则珍惜作者们的劳动成果。

投稿｜商务合作｜转载：SL13126828869（微信）

点击❤收藏并推荐本文