芝能智芯出品
2019 年 特斯拉的Autonomy Day(自动驾驶日) 这是 HW3 正式亮相的时刻。
在 HW3 发布前后,马斯克的口径非常坚决,现有的硬件(HW3)已经完全足够实现全自动驾驶(L4/L5),剩下的只是软件问题。
马斯克当时称 HW3 芯片是“世界上最强大的芯片”,并留下了那句著名的论断:“任何非特斯拉制造的芯片在自动驾驶领域都是二流的。HW3 的算力是实现 FSD 的底线,且拥有巨大的冗余度。”

但后来马斯克在财报会议上明确表示:“Hardware 3 根本不具备实现无监督(Unsupervised)FSD 的能力。” 主要是内存带宽(Memory Bandwidth)不足。
HW3 的内存带宽仅为 Hardware 4(AI4)的 1/8。
他承认特斯拉此前过于乐观,曾认为 HW3 的冗余度足以支持全自动驾驶,但实际跑下来的神经网络规模超出了硬件承载能力。
全球市值最高的车企——至今仍有超过400万辆车,正在用被现实毒打之后的经历告诉大家芯片设计的分水岭。
智能驾驶行业有一个心照不宣的秘密:新发布标称算力更高的芯片,往往跑不过标称算力更低但芯片更成熟的方案。
标称算力TOPS,是芯片在较为理想工况下的理论峰值。而自动驾驶从诞生之初,面对的就是充满物理约束和海量并发任务的极端复杂系统。
当行业仍在围绕TOPS营销时,工程实践上有所变化。
在CNN时代,算力与性能确实呈线性正相关。模型规整,计算局部性高,堆算力就能直接转化速度。但Transformer改变了一切。全局注意力机制引入了复杂的数据访问模式。
当今智驾系统需要同时运行感知、预测、规划等数十个神经网络,各任务严格时序耦合。性能不再由单一计算瓶颈决定,而是取决于数据流转和任务调度。
TOPS描述的是硬件"能算多快",而智驾真正需要回答的是在真实约束下能稳定输出多少"有效算力"。
如果有效算力决定"算得精不精",数据通路架构则决定"算得动不动"。
自动驾驶是极度数据密集的实时系统。十余颗摄像头持续输出海量视频流,需要经过图像处理、写入内存、再次读取用于推理。

在这一过程中,内存带宽成为最直接的物理瓶颈"存储墙"。
◎ HW3:LPDDR4,带宽约50 GB/s
◎ HW4:GDDR6,带宽约384 GB/s
AI4的带宽达到HW3的7倍以上。这就是为什么HW3无法运行最新的FSD版本——不是算力不够,而是数据"血管"太细。算力是肌肉,带宽是血管。肌肉再强大,血管堵塞也是瘫痪。
汽车硬件生命周期跑不过AI迭代周期,汽车生命周期7年 > 软件生命周期,Transformer代际更替2年 < 硬件寿命。
这才是HW3真正可怕的地方。一辆机械寿命仍然完好的汽车,因为无法运行下一代模型,而被排除在智能驾驶体系之外。
下一个时代的门槛,是有效算力+内存带宽+架构效率的综合实力。
汽车正在从"硬件定义软件",转向"软件定义硬件",最终走向"AI定义硬件"。
目前内存价格很高,所以车企也很难在内存很贵的时候去全面升级,可以说智能驾驶的进一步发展,需要等待芯片和内存都有合理成本的时候,同时算法也需要进一步提升。