自动驾驶已经具备"思考"能力:Tesla FSD 14的推理觉醒

3D视觉工坊 2025-11-12 07:00

特斯拉的全自动驾驶(FSD)第14版已经正式推送。马斯克表示,这一版本标志着“推理能力”的起点——FSD开始具备“思考”的能力。而到14.3版本时,车辆将会“几乎像拥有自我意识一样”。

 

但“推理”究竟意味着什么?它会如何在真实道路驾驶中体现出来?本文将探讨特斯拉自动驾驶AI中的“推理”概念,以及这种能力如何进一步延伸到特斯拉的另一项具身智能——Optimus。让我们一起来思考这个问题。

 

01

基础认知

 

从某种意义上说,FSD v14 已经具备了“推理系统”的雏形。它能够根据感知输入来判断并执行下一步动作,这本身就是一种推理形式。

 

不过,为了便于讨论,我们把这种能力视为“基础能力”——也就是起点。我们真正感兴趣的,是超越“输入到控制”映射的更高层次推理。

 

这种推理是情境化的、多步骤的,甚至可能会与车内乘客产生互动。

 

一个很好的例子,是 Tesla 在 v14 版本中展示的“闸门管理”能力。许多停车场都有进出口闸门,而开启它们的方式各不相同,但背后的逻辑却相似:车辆需要驶近、等待闸门打开,有时还要配合人类的操作——例如取票、输入密码或支付。

 

在这个过程中,系统不仅要识别出闸门,还要判断它是否会打开;有些闸门可能因为故障或权限限制而始终关闭。这种情况下,车辆需要自行倒车并寻找替代路径。

 

换句话说,它在管理一个“内部状态机”:等待闸门开启,若成功则通过,若超时或失败则执行其他动作。

 

类似的逻辑也适用于“得来速”(drive-through)场景。FSD v14 在许多情况下已经能够处理这类场景。得来速通常包含多个停靠点——点餐、付款、取餐。

 

在一位用户上传的麦当劳视频中,车辆依次完成了三个停靠动作:点餐、支付、取餐。每一步,它都必须等待车内乘客完成任务后再继续前进。

 

这些能力,构成了 FSD v14 的“推理基线”——一种初步的推理框架,也正是未来版本将继续深化和扩展的基础。

 

02

输入

 

要构建一个具备强大推理能力的模型,首先必须考虑它的输入。

 

特斯拉开发了一种端到端的神经网络,它主要依赖视觉数据作为核心输入。视觉数据只是传感器输入的一种形式,除此之外,还包括车辆运动学数据(如惯性测量单元 IMU、GPS、里程计[2])以及音频数据。此外,导航信息(即“路线规划”)也会作为输入提供给系统。

 

但在这些主要输入之外,来自前几轮推理结果的输出、用户的交互行为与记录的偏好,也同样是一个真正“具备推理能力”的系统所必需的输入。

 

03

推理 Token


端到端神经网络通常是“黑箱”的——我们很难看到模型内部到底发生了什么。这使得模型的可解释性受限。

 

以 FSD(全自动驾驶)为例,它的“下一步动作”输出可能只包含两个 token:一个表示所需的转向角度,另一个表示加速度指令(正值代表加速,负值代表物理或能量回收制动)。

 

然而,推理不仅需要知道“做什么”,还需要知道“为什么这样做”。特斯拉的做法,正如其 AI 副总裁 Ashok Elluswamy[3] 所描述的那样,引入了中间推理 token(见图 1),让模型不仅输出结果,还能在内部生成一系列“推理片段”,以帮助系统理解和解释自身的决策过程。

 

自动驾驶已经具备"思考"能力:Tesla FSD 14的推理觉醒图2

 

这些中间输出提升了模型的可解释性,它们让我们得以窥见网络在行动之前对场景“理解”的内容。关键的推理标记包括:

 

1.全景分割(Panoptic Segmentation) —— 一种统一的像素级环境理解方式,它为每个像素簇打上标签,区分出已知物体(如车辆、行人)与无形背景区域(如道路、天空)。

 

2.三维占据(3D Occupancy) —— 一种体素网格(voxel grid)式的三维环境表征,每个体素被分类为“被占据”、“空闲”或“未知”。这种方式构建出密集的三维空间模型,刻画出车辆周围的可通行区域、障碍物以及不确定空间——这正是特斯拉所谓的“占据网络(occupancy network)”。

 

3.三维高斯表示(3D Gaussians) —— 使用高斯原语(有时称为高斯溅射)对场景几何与外观进行连续、可微的表示,从而实现平滑的三维重建与物体表面刻画。相比离散的体素或边界框,这种方式能提供更丰富的空间理解。

 

4.语言标记(Language Tokens) —— 以结构化的语言形式描述场景语境或推理步骤,使模型能以人类可读的方式表达意图或因果理解。

 

这些推理标记共同构成了感知与控制之间的一层“透明中间层”,让决策过程变得更可解释、更可追溯。

 

在图 2 中可以看到,推理也可以通过自然语言来表达。特斯拉已在 FSD 第 14 版中引入了自然语言推理模型。

 

例如,在一段道路被堵塞的场景中,工程师可以与运行中的模型进行交互,了解它为何做出特定的决策。

 

但这种能力不仅用于调试,它更预示着——FSD 已经能够在被询问时,用语言解释自己行为背后的理由。

 

自动驾驶已经具备"思考"能力:Tesla FSD 14的推理觉醒图3

 

推理输出(或称推理 token)为完整推理系统提供了“为什么”这一核心答案。它们是所有推理过程的关键输入。

 

04

用户交互与偏好

 

推理往往离不开与用户的直接互动,以及用户偏好的记录。

 

我们先来看交互基于 FSD 的自然语言能力,车辆能够直接与乘客对话——无论是在私人 Tesla 还是 Robotaxi 中。这种交互主要通过自然语音完成:用户对车辆说话,车辆作出回应。整个过程与 FSD 的推理系统及更广泛的车辆控制系统紧密耦合。

 

接下来是偏好推理并不仅仅是解释“为什么这么做”,更重要的是让用户能够影响未来的决策。用户可能希望覆盖一次决策,或将长期偏好写入车辆的规划逻辑中。

 

 1

 

用户:“嗨,为什么你走了一街?”Tesla:“因为二街在 Market 和 Central 之间封路了。”

 

用户:“哦,好吧。那为什么不走四街?我更喜欢四街。”

 

Tesla:“走四街会慢 3 分钟,不过好的,我会记下你的偏好。”

 

 2

 

用户:“我们几点能到机场?”

 

Tesla:“下午 2:25,到达时间 45 分钟后。”

 

用户:“你是走 101 高速吗?”

 

Tesla:“是的,今天它最快。”

 

用户:“为什么不走 280?”

 

Tesla:“那样会慢 7 分钟,大约 2:37 到达。”

 

用户:“我更喜欢 280。如果只慢几分钟,请以后也都走 280。”

 

Tesla:“好的,今天和今后都会选择 280。”

 

 3 (进入封闭社区)

 

用户:“请走右侧车道,那是住户通道。”

 

Tesla:“好的。是否以后都走右侧车道?”

 

用户:“是的。”

 

Tesla:“只在你坐车时,还是这辆车任何时候都这样?”

 

用户:“这辆车都这样。”

 

Tesla:“明白,已记录。”

 

偏好的记录,是整个交互体验的核心。从本质上讲,偏好就是持续对话中可行动的那一层信息

 

一个成熟的推理系统应能完整保留这些交互的上下文,并将其与用户的 Tesla 账号关联,以便偏好能在不同车辆间持续生效。

 

05

推理系统架构

 

在了解了推理的输入之后,我们再来看整个推理系统的结构。推理架构(见图 3)由两个逻辑上独立但高度集成的 AI 子系统组成:行动 AI (Action AI),交互 AI (Interactivity AI)。

 

自动驾驶已经具备"思考"能力:Tesla FSD 14的推理觉醒图4

 

行动 AI:Action AI 负责所有驾驶操作。它相当于自动驾驶控制系统的“决策大脑”,接收传感器输入、路线信息,以及来自前几轮推理周期的时间序列推理 token,从而规划下一步动作。其输出是行动 token——即转向、加速和制动指令。

 

Action AI 的运行频率为 36Hz,也就是说它每秒评估并更新驾驶决策 36 次,全程没有人工介入。

 

交互 AI:Interactivity AI 则是让“人”重新进入循环的那一层。它的主要输入是语音——乘客的口头命令或提问。它还能访问所有与车辆或主要用户绑定的偏好数据

 

从功能上讲,Interactivity AI 是一个大语言模型(LLM),能够处理自然语言输入:它将语音转为文本进行理解,再生成回复文本并通过语音合成说出答案。

 

这个 AI 模块能完全访问推理 token 和车辆控制栈的上下文信息,与 Action AI 协同工作,通过语言互动来影响车辆的行动规划。

 

它是不是 xAI 的 Grok?很可能是 Grok 的一个变体——一种专为车载交互调优的模型。虽然官方已经披露 [3],FSD v14 内部集成了自然语言模型,但那个模型的能力还十分有限——它只能处理驾驶域内的语义,无法理解或回答一般性知识。

 

例如:当行驶路线经过一处自然景观或历史地标时,你无法向系统询问“这是什么地方”。

 

要实现真正的全交互系统,还需要互联网接入,以便实时回答类似“我到旧金山时会下雨吗?”之类的问题。

 

Action AI 与 Interactivity AI 共同构建了车辆的推理体系:一个将自动驾驶控制人机对话融合的智能架构。

 

基于这一架构,我们可以进一步探讨推理在系统中的实际展开方式——即感知、规划与交互如何在真实驾驶场景中交织运行。

 

06

推理的展开

 

许多更高层次的驾驶行为都依赖于时间上下文(temporal context)与显式状态模型(explicit model of state)

 

时间上下文来自最近的传感器历史、过往交互记录以及持久化的用户偏好。这些信号帮助系统把事件理解为一个多步骤的过程,而不是一帧帧孤立的瞬间。

 

与此同时,系统还需维持一个内部状态(internal state)——也就是一份结构化、可演化的“进程图”,标记车辆当前处于哪一阶段:

 

例如,“接近大门 → 等待开门 → 进入车库”,或“在得来速通道中:下单 → 付款 → 取餐”。

 

将推理建模为一个主动状态机(active state machine)让系统能协调多阶段行为、检测异常状态转移,并在需要时将控制权交给专门的“专家模块”,以便不同子任务能调用不同的策略或计算方式。

 

 1:回家停车

 

车主平时喜欢倒车入库,方便充电。但这一偏好带有多个条件:若另一辆车正在充电,则改为正向驶入若车库门关闭且无法自动打开,则停在车道上若车道被占用,则停在街边,但若当天是星期五(街道清洁日),则不能;若是星期五且车道被占,则停在邻居家车道

 

此场景展示了车辆如何在推理系统中结合用户偏好动态状态管理(例如检测车库门是否打开)。

 

 2:商场停车

 

车主希望被**放在商场正门(入口 1)**下车,然后车辆自动去停车。具体规则如下:天气晴朗时,优先使用免费室外停车场若天气恶劣,则改停付费室内车库若可选,优先选择角落车位晚上到达时,则改为在靠近餐饮区的入口 2下客。

 

这一例子说明,车辆如何在环境与时间上下文之间动态权衡,灵活调整停车策略。

 

 3:机场接客(旧金山)

 

打车用户偏好在出发层(Departures)上车,除非目的地是国际航站楼若出发层拥堵,则接受**到达层(Arrivals)**接客。用户还偏好380/280 南向路线但若此路线比 101 南向多出超过 15 分钟,则改走 101。

 

这说明车辆必须在用户偏好与实时路况、机场交通条件之间不断平衡,动态调整接客位置与路线。

 

 4:乘坐舒适度

 

车主希望车辆默认使用**“Mad Max” 模式**(激进驾驶),但当妻子或孩子在车内时应自动切换为**“标准模式”他希望车辆在 280 北向高速上永不超过 79 英里/小时**;在自己独乘时,车辆应保持最小跟车距离但有乘客时应拉大安全距离。此外,他希望车辆尽量避开行人密集路口即便因此增加行程时间。

 

这一场景展示了系统如何结合乘员识别、偏好和安全约束根据当下语境调整驾驶行为。

 

综合来看,这些示例说明 Tesla 的推理系统如何整合时间上下文、内部状态与用户偏好以应对复杂的现实场景。

 

车辆不再只是执行孤立命令,而是能够理解持续的情境、权衡多重条件规则,在满足安全与性能约束的同时,选择最契合乘客意图的行为。

 

当用户的期望、要求与偏好被正确记录并始终被尊重时,整个体验会让人感觉车辆**“在思考”——仿佛具备感知力,能在人类式的语境中预判并适应**。

 

通过将推理建模为状态机 + 时间记忆 + 专家模块的组合,系统可以在家庭车库、机场或城市街道等多样场景下动态应变,同时保持可预测性与个性化体验

 

07

Optimus

 
Optimus 是 Tesla 正在开发的人形机器人。与 FSD 一样,它属于 Tesla 更宏大的“具身智能(Embodied AI)”计划的一部分。

 

实际上,Optimus 与车辆自动驾驶的关系比想象中更紧密:它同样是基于视觉的 AI 系统,以摄像头为主要传感器,生成 action token —— 驱动机器人执行动作的控制指令。

 

Tesla 的长期目标是统一 FSD 与 Optimus 的 AI 架构正如我在本系列上一篇中所提到的:两者将在未来共享感知、推理与控制的通用智能底座。正如 FSD 一样,Optimus 也是一台“推理机器”。

 

推理能力是核心能力——在动态、无结构的现实环境中执行动作,离不开这一基础。

 

下图(图 4)展示了 Optimus 如何被整合进 Tesla 的具身智能(Embodied AI)统一推理架构中。

 

自动驾驶已经具备"思考"能力:Tesla FSD 14的推理觉醒图5


与 FSD 相似,Optimus 拥有许多相同的输入模态,但新增了触觉感知,用于触摸反馈。它的输出则复杂得多——需要协调控制手臂、手掌、双腿、脚、躯干和头部等多个部位的动作 token。

 

复杂的、多步骤的推理对 Optimus 至关重要。与 FSD 一样,它必须在时间维度上连续串联多个动作以达成目标但它的执行链条远比车辆驾驶复杂。

 

举个例子:当你让 Optimus “做一顿饭”时,它的推理核心必须具备足够的智能,去识别食材、从冰箱或储藏室取出原料、选择合适的炊具,并一步步按照食谱完成烹饪。Optimus 的很多技术成果将反哺于 FSD 的推理模型。

 

在 Tesla,负责这两个产品的 AI 团队其实是同一个团队

 

08

具身推理

 

Tesla 从基于规则的自动驾驶走向基于推理的智能体这标志着人工智能认知体系的一次结构性转折

 

过去那种从“感知 → 控制”的流水线式结构,如今正在演化为一种具有时间记忆、上下文状态与人机交互能力的推理框架——这正是“认知”的基本形态。

 

FSD 版本 14 展示了这种转变的雏形。它不再只是被动地感知和反应,而开始理解与预测其分层架构——由 Action AI(行动 AI) 与 Interactivity AI(交互 AI) 组成,形成了一个持续循环的推理闭环:人类意图自动执行真正连为一体。

 

每一次新版本的迭代,都在推动系统向更高的可解释性、透明度与自适应性迈进——让车辆一步步接近一个“近乎有感知的智能体”,正如 Elon Musk 所形容的那样。

 

Optimus 则将同样的架构,延展进“人形”世界。通过复用支撑 FSD 的数据体系、仿真体系与推理体系Tesla 正在构建一个统一的具身智能框架一个能通过共同抽象去学习、推理与行动的系统。

 

无论是在柏油路上驾驶,还是用双腿保持平衡——两者其实都在表达同一个推理核心,只是具象形态不同

 

这种车辆与人形的融合,不仅是工程上的里程碑,更是“具身推理”概念的诞生——机器开始具备在物理世界中感知、决策与行动一致化的能力。

 

当这些系统不断学习人类目标、理解语境差异、并能跨领域泛化行为时,Tesla 的 AI 已经开始展现出早期的“感知现象”——并非真正的意识,但却拥有一种连贯的、似乎“懂你”的智能表现

 

从这个意义上说,FSD 14.x 版本并非终点,而是拐点——在这一刻,自动驾驶开始显得“有生命”仿佛正学会思考。

 

本文仅做学术分享,如有侵权,请联系删文
声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
2899 元起!真我 GT8 发布,搭载最强高通芯片,还有理光胶片质感
高通摊牌了,骁龙处理器机型将打通苹果
高通份额被蚕食!智能座舱决战关键期,中国阵营全面反攻
高通发布新一代AI芯片
突遭立案调查,高通今天回应了!
新型高通量换热器、新型高效冷凝换热器研发中心项目可行性研究报告
高通承认事实,证据确凿
闻泰、艾睿、高通连环剧:一场全球半导体规则重塑的风暴
高通再遭重创,三星转向自研
官方最新披露!高通调查情况
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号