特斯拉的全自动驾驶(FSD)第14版已经正式推送。马斯克表示,这一版本标志着“推理能力”的起点——FSD开始具备“思考”的能力。而到14.3版本时,车辆将会“几乎像拥有自我意识一样”。
但“推理”究竟意味着什么?它会如何在真实道路驾驶中体现出来?本文将探讨特斯拉自动驾驶AI中的“推理”概念,以及这种能力如何进一步延伸到特斯拉的另一项具身智能——Optimus。让我们一起来思考这个问题。
01
基础认知
从某种意义上说,FSD v14 已经具备了“推理系统”的雏形。它能够根据感知输入来判断并执行下一步动作,这本身就是一种推理形式。
不过,为了便于讨论,我们把这种能力视为“基础能力”——也就是起点。我们真正感兴趣的,是超越“输入到控制”映射的更高层次推理。
这种推理是情境化的、多步骤的,甚至可能会与车内乘客产生互动。
一个很好的例子,是 Tesla 在 v14 版本中展示的“闸门管理”能力。许多停车场都有进出口闸门,而开启它们的方式各不相同,但背后的逻辑却相似:车辆需要驶近、等待闸门打开,有时还要配合人类的操作——例如取票、输入密码或支付。
在这个过程中,系统不仅要识别出闸门,还要判断它是否会打开;有些闸门可能因为故障或权限限制而始终关闭。这种情况下,车辆需要自行倒车并寻找替代路径。
换句话说,它在管理一个“内部状态机”:等待闸门开启,若成功则通过,若超时或失败则执行其他动作。
类似的逻辑也适用于“得来速”(drive-through)场景。FSD v14 在许多情况下已经能够处理这类场景。得来速通常包含多个停靠点——点餐、付款、取餐。
在一位用户上传的麦当劳视频中,车辆依次完成了三个停靠动作:点餐、支付、取餐。每一步,它都必须等待车内乘客完成任务后再继续前进。
这些能力,构成了 FSD v14 的“推理基线”——一种初步的推理框架,也正是未来版本将继续深化和扩展的基础。
02
输入
要构建一个具备强大推理能力的模型,首先必须考虑它的输入。
特斯拉开发了一种端到端的神经网络,它主要依赖视觉数据作为核心输入。视觉数据只是传感器输入的一种形式,除此之外,还包括车辆运动学数据(如惯性测量单元 IMU、GPS、里程计[2])以及音频数据。此外,导航信息(即“路线规划”)也会作为输入提供给系统。
但在这些主要输入之外,来自前几轮推理结果的输出、用户的交互行为与记录的偏好,也同样是一个真正“具备推理能力”的系统所必需的输入。
03
推理 Token
端到端神经网络通常是“黑箱”的——我们很难看到模型内部到底发生了什么。这使得模型的可解释性受限。
以 FSD(全自动驾驶)为例,它的“下一步动作”输出可能只包含两个 token:一个表示所需的转向角度,另一个表示加速度指令(正值代表加速,负值代表物理或能量回收制动)。
然而,推理不仅需要知道“做什么”,还需要知道“为什么这样做”。特斯拉的做法,正如其 AI 副总裁 Ashok Elluswamy[3] 所描述的那样,引入了中间推理 token(见图 1),让模型不仅输出结果,还能在内部生成一系列“推理片段”,以帮助系统理解和解释自身的决策过程。

这些中间输出提升了模型的可解释性,它们让我们得以窥见网络在行动之前对场景“理解”的内容。关键的推理标记包括:
1.全景分割(Panoptic Segmentation) —— 一种统一的像素级环境理解方式,它为每个像素簇打上标签,区分出已知物体(如车辆、行人)与无形背景区域(如道路、天空)。
2.三维占据(3D Occupancy) —— 一种体素网格(voxel grid)式的三维环境表征,每个体素被分类为“被占据”、“空闲”或“未知”。这种方式构建出密集的三维空间模型,刻画出车辆周围的可通行区域、障碍物以及不确定空间——这正是特斯拉所谓的“占据网络(occupancy network)”。
3.三维高斯表示(3D Gaussians) —— 使用高斯原语(有时称为高斯溅射)对场景几何与外观进行连续、可微的表示,从而实现平滑的三维重建与物体表面刻画。相比离散的体素或边界框,这种方式能提供更丰富的空间理解。
4.语言标记(Language Tokens) —— 以结构化的语言形式描述场景语境或推理步骤,使模型能以人类可读的方式表达意图或因果理解。
这些推理标记共同构成了感知与控制之间的一层“透明中间层”,让决策过程变得更可解释、更可追溯。
在图 2 中可以看到,推理也可以通过自然语言来表达。特斯拉已在 FSD 第 14 版中引入了自然语言推理模型。
例如,在一段道路被堵塞的场景中,工程师可以与运行中的模型进行交互,了解它为何做出特定的决策。
但这种能力不仅用于调试,它更预示着——FSD 已经能够在被询问时,用语言解释自己行为背后的理由。

推理输出(或称推理 token)为完整推理系统提供了“为什么”这一核心答案。它们是所有推理过程的关键输入。
04
用户交互与偏好
推理往往离不开与用户的直接互动,以及用户偏好的记录。
我们先来看交互。基于 FSD 的自然语言能力,车辆能够直接与乘客对话——无论是在私人 Tesla 还是 Robotaxi 中。这种交互主要通过自然语音完成:用户对车辆说话,车辆作出回应。整个过程与 FSD 的推理系统及更广泛的车辆控制系统紧密耦合。
接下来是偏好。推理并不仅仅是解释“为什么这么做”,更重要的是让用户能够影响未来的决策。用户可能希望覆盖一次决策,或将长期偏好写入车辆的规划逻辑中。
1
用户:“嗨,为什么你走了一街?”Tesla:“因为二街在 Market 和 Central 之间封路了。”
用户:“哦,好吧。那为什么不走四街?我更喜欢四街。”
Tesla:“走四街会慢 3 分钟,不过好的,我会记下你的偏好。”
2
用户:“我们几点能到机场?”
Tesla:“下午 2:25,到达时间 45 分钟后。”
用户:“你是走 101 高速吗?”
Tesla:“是的,今天它最快。”
用户:“为什么不走 280?”
Tesla:“那样会慢 7 分钟,大约 2:37 到达。”
用户:“我更喜欢 280。如果只慢几分钟,请以后也都走 280。”
Tesla:“好的,今天和今后都会选择 280。”
3 (进入封闭社区)
用户:“请走右侧车道,那是住户通道。”
Tesla:“好的。是否以后都走右侧车道?”
用户:“是的。”
Tesla:“只在你坐车时,还是这辆车任何时候都这样?”
用户:“这辆车都这样。”
Tesla:“明白,已记录。”
偏好的记录,是整个交互体验的核心。从本质上讲,偏好就是持续对话中可行动的那一层信息。
一个成熟的推理系统应能完整保留这些交互的上下文,并将其与用户的 Tesla 账号关联,以便偏好能在不同车辆间持续生效。
05
推理系统架构
在了解了推理的输入之后,我们再来看整个推理系统的结构。推理架构(见图 3)由两个逻辑上独立但高度集成的 AI 子系统组成:行动 AI (Action AI),交互 AI (Interactivity AI)。

行动 AI:Action AI 负责所有驾驶操作。它相当于自动驾驶控制系统的“决策大脑”,接收传感器输入、路线信息,以及来自前几轮推理周期的时间序列推理 token,从而规划下一步动作。其输出是行动 token——即转向、加速和制动指令。
Action AI 的运行频率为 36Hz,也就是说它每秒评估并更新驾驶决策 36 次,全程没有人工介入。
交互 AI:Interactivity AI 则是让“人”重新进入循环的那一层。它的主要输入是语音——乘客的口头命令或提问。它还能访问所有与车辆或主要用户绑定的偏好数据。
从功能上讲,Interactivity AI 是一个大语言模型(LLM),能够处理自然语言输入:它将语音转为文本进行理解,再生成回复文本并通过语音合成说出答案。
这个 AI 模块能完全访问推理 token 和车辆控制栈的上下文信息,与 Action AI 协同工作,通过语言互动来影响车辆的行动规划。
它是不是 xAI 的 Grok?很可能是 Grok 的一个变体——一种专为车载交互调优的模型。虽然官方已经披露 [3],FSD v14 内部集成了自然语言模型,但那个模型的能力还十分有限——它只能处理驾驶域内的语义,无法理解或回答一般性知识。
例如:当行驶路线经过一处自然景观或历史地标时,你无法向系统询问“这是什么地方”。
要实现真正的全交互系统,还需要互联网接入,以便实时回答类似“我到旧金山时会下雨吗?”之类的问题。
Action AI 与 Interactivity AI 共同构建了车辆的推理体系:一个将自动驾驶控制与人机对话融合的智能架构。
基于这一架构,我们可以进一步探讨推理在系统中的实际展开方式——即感知、规划与交互如何在真实驾驶场景中交织运行。
06
推理的展开
许多更高层次的驾驶行为都依赖于时间上下文(temporal context)与显式状态模型(explicit model of state)。
时间上下文来自最近的传感器历史、过往交互记录以及持久化的用户偏好。这些信号帮助系统把事件理解为一个多步骤的过程,而不是一帧帧孤立的瞬间。
与此同时,系统还需维持一个内部状态(internal state)——也就是一份结构化、可演化的“进程图”,标记车辆当前处于哪一阶段:
例如,“接近大门 → 等待开门 → 进入车库”,或“在得来速通道中:下单 → 付款 → 取餐”。
将推理建模为一个主动状态机(active state machine),让系统能协调多阶段行为、检测异常状态转移,并在需要时将控制权交给专门的“专家模块”,以便不同子任务能调用不同的策略或计算方式。
1:回家停车
车主平时喜欢倒车入库,方便充电。但这一偏好带有多个条件:•若另一辆车正在充电,则改为正向驶入;•若车库门关闭且无法自动打开,则停在车道上;•若车道被占用,则停在街边,但若当天是星期五(街道清洁日),则不能;•若是星期五且车道被占,则停在邻居家车道。
此场景展示了车辆如何在推理系统中结合用户偏好与动态状态管理(例如检测车库门是否打开)。
2:商场停车
车主希望被**放在商场正门(入口 1)**下车,然后车辆自动去停车。具体规则如下:•天气晴朗时,优先使用免费室外停车场;•若天气恶劣,则改停付费室内车库;•若可选,优先选择角落车位;•晚上到达时,则改为在靠近餐饮区的入口 2下客。
这一例子说明,车辆如何在环境与时间上下文之间动态权衡,灵活调整停车策略。
3:机场接客(旧金山)
打车用户偏好在出发层(Departures)上车,除非目的地是国际航站楼;若出发层拥堵,则接受**到达层(Arrivals)**接客。用户还偏好380/280 南向路线,但若此路线比 101 南向多出超过 15 分钟,则改走 101。
这说明车辆必须在用户偏好与实时路况、机场交通条件之间不断平衡,动态调整接客位置与路线。
4:乘坐舒适度
车主希望车辆默认使用**“Mad Max” 模式**(激进驾驶),但当妻子或孩子在车内时应自动切换为**“标准模式”。他希望车辆在 280 北向高速上永不超过 79 英里/小时**;在自己独乘时,车辆应保持最小跟车距离,但有乘客时应拉大安全距离。此外,他希望车辆尽量避开行人密集路口,即便因此增加行程时间。
这一场景展示了系统如何结合乘员识别、偏好和安全约束,根据当下语境调整驾驶行为。
综合来看,这些示例说明 Tesla 的推理系统如何整合时间上下文、内部状态与用户偏好,以应对复杂的现实场景。
车辆不再只是执行孤立命令,而是能够理解持续的情境、权衡多重条件规则,在满足安全与性能约束的同时,选择最契合乘客意图的行为。
当用户的期望、要求与偏好被正确记录并始终被尊重时,整个体验会让人感觉车辆**“在思考”——仿佛具备感知力,能在人类式的语境中预判并适应**。
通过将推理建模为状态机 + 时间记忆 + 专家模块的组合,系统可以在家庭车库、机场或城市街道等多样场景下动态应变,同时保持可预测性与个性化体验。
07
Optimus
实际上,Optimus 与车辆自动驾驶的关系比想象中更紧密:它同样是基于视觉的 AI 系统,以摄像头为主要传感器,生成 action token —— 驱动机器人执行动作的控制指令。
Tesla 的长期目标是统一 FSD 与 Optimus 的 AI 架构。正如我在本系列上一篇中所提到的:两者将在未来共享感知、推理与控制的通用智能底座。正如 FSD 一样,Optimus 也是一台“推理机器”。
推理能力是核心能力——在动态、无结构的现实环境中执行动作,离不开这一基础。
下图(图 4)展示了 Optimus 如何被整合进 Tesla 的具身智能(Embodied AI)统一推理架构中。

与 FSD 相似,Optimus 拥有许多相同的输入模态,但新增了触觉感知,用于触摸反馈。它的输出则复杂得多——需要协调控制手臂、手掌、双腿、脚、躯干和头部等多个部位的动作 token。
复杂的、多步骤的推理对 Optimus 至关重要。与 FSD 一样,它必须在时间维度上连续串联多个动作以达成目标,但它的执行链条远比车辆驾驶复杂。
举个例子:当你让 Optimus “做一顿饭”时,它的推理核心必须具备足够的智能,去识别食材、从冰箱或储藏室取出原料、选择合适的炊具,并一步步按照食谱完成烹饪。Optimus 的很多技术成果将反哺于 FSD 的推理模型。
在 Tesla,负责这两个产品的 AI 团队其实是同一个团队。
08
具身推理
Tesla 从基于规则的自动驾驶走向基于推理的智能体,这标志着人工智能认知体系的一次结构性转折。
过去那种从“感知 → 控制”的流水线式结构,如今正在演化为一种具有时间记忆、上下文状态与人机交互能力的推理框架——这正是“认知”的基本形态。
FSD 版本 14 展示了这种转变的雏形。它不再只是被动地感知和反应,而开始理解与预测。其分层架构——由 Action AI(行动 AI) 与 Interactivity AI(交互 AI) 组成,形成了一个持续循环的推理闭环:让人类意图与自动执行真正连为一体。
每一次新版本的迭代,都在推动系统向更高的可解释性、透明度与自适应性迈进——让车辆一步步接近一个“近乎有感知的智能体”,正如 Elon Musk 所形容的那样。
Optimus 则将同样的架构,延展进“人形”世界。通过复用支撑 FSD 的数据体系、仿真体系与推理体系,Tesla 正在构建一个统一的具身智能框架:一个能通过共同抽象去学习、推理与行动的系统。
无论是在柏油路上驾驶,还是用双腿保持平衡——两者其实都在表达同一个推理核心,只是具象形态不同。
这种车辆与人形的融合,不仅是工程上的里程碑,更是“具身推理”概念的诞生——机器开始具备在物理世界中感知、决策与行动一致化的能力。
当这些系统不断学习人类目标、理解语境差异、并能跨领域泛化行为时,Tesla 的 AI 已经开始展现出早期的“感知现象”——并非真正的意识,但却拥有一种连贯的、似乎“懂你”的智能表现。
从这个意义上说,FSD 14.x 版本并非终点,而是拐点——在这一刻,自动驾驶开始显得“有生命”,仿佛正学会思考。