特斯拉用400万辆车，探索到算力芯片的边界

芝能智芯出品

2019 年特斯拉的Autonomy Day（自动驾驶日）这是 HW3 正式亮相的时刻。

在 HW3 发布前后，马斯克的口径非常坚决，现有的硬件（HW3）已经完全足够实现全自动驾驶（L4/L5），剩下的只是软件问题。

马斯克当时称 HW3 芯片是“世界上最强大的芯片”，并留下了那句著名的论断：“任何非特斯拉制造的芯片在自动驾驶领域都是二流的。HW3 的算力是实现 FSD 的底线，且拥有巨大的冗余度。”

但后来马斯克在财报会议上明确表示：“Hardware 3 根本不具备实现无监督（Unsupervised）FSD 的能力。” 主要是内存带宽（Memory Bandwidth）不足。

HW3 的内存带宽仅为 Hardware 4（AI4）的 1/8。

他承认特斯拉此前过于乐观，曾认为 HW3 的冗余度足以支持全自动驾驶，但实际跑下来的神经网络规模超出了硬件承载能力。

全球市值最高的车企——至今仍有超过400万辆车，正在用被现实毒打之后的经历告诉大家芯片设计的分水岭。

智能驾驶行业有一个心照不宣的秘密：新发布标称算力更高的芯片，往往跑不过标称算力更低但芯片更成熟的方案。

标称算力TOPS，是芯片在较为理想工况下的理论峰值。而自动驾驶从诞生之初，面对的就是充满物理约束和海量并发任务的极端复杂系统。

当行业仍在围绕TOPS营销时，工程实践上有所变化。

在CNN时代，算力与性能确实呈线性正相关。模型规整，计算局部性高，堆算力就能直接转化速度。但Transformer改变了一切。全局注意力机制引入了复杂的数据访问模式。

当今智驾系统需要同时运行感知、预测、规划等数十个神经网络，各任务严格时序耦合。性能不再由单一计算瓶颈决定，而是取决于数据流转和任务调度。

TOPS描述的是硬件"能算多快"，而智驾真正需要回答的是在真实约束下能稳定输出多少"有效算力"。

如果有效算力决定"算得精不精"，数据通路架构则决定"算得动不动"。

自动驾驶是极度数据密集的实时系统。十余颗摄像头持续输出海量视频流，需要经过图像处理、写入内存、再次读取用于推理。

在这一过程中，内存带宽成为最直接的物理瓶颈"存储墙"。

◎ HW3：LPDDR4，带宽约50 GB/s

◎ HW4：GDDR6，带宽约384 GB/s

AI4的带宽达到HW3的7倍以上。这就是为什么HW3无法运行最新的FSD版本——不是算力不够，而是数据"血管"太细。算力是肌肉，带宽是血管。肌肉再强大，血管堵塞也是瘫痪。

汽车硬件生命周期跑不过AI迭代周期，汽车生命周期7年 > 软件生命周期，Transformer代际更替2年 < 硬件寿命。

这才是HW3真正可怕的地方。一辆机械寿命仍然完好的汽车，因为无法运行下一代模型，而被排除在智能驾驶体系之外。

下一个时代的门槛，是有效算力+内存带宽+架构效率的综合实力。

汽车正在从"硬件定义软件"，转向"软件定义硬件"，最终走向"AI定义硬件"。

小结

目前内存价格很高，所以车企也很难在内存很贵的时候去全面升级，可以说智能驾驶的进一步发展，需要等待芯片和内存都有合理成本的时候，同时算法也需要进一步提升。