对话理想谢炎&詹锟：年末追平特斯拉FSD

“国内第一梯队差距在缩小，但为何与特斯拉的差距没缩小？ ”

作者丨倪萍

编辑丨王瑞昊

四年前，理想内部启动马赫芯片项目，以解决算力成本持续上升、外购芯片方案不匹配需求两大难题。

四年后，马赫M100芯片随着理想L9 Livis正式发布，推动理想放出豪言：智驾能力要在年底追平特斯拉FSD V14。

这成为下半年理想留给外界的最大悬念。

智驾追平特斯拉，是头部车企都曾提出的口号与目标。理想汽车自动驾驶、基座模型负责人詹锟将这个问题拆分为两个维度。

第一是基础体验，具体是三方面：安全感、效率、舒适度是否能达到FSD的同等水平。如果开过FSD，它的安全感非常足，效率很好，舒适度很好，这是它的基本功。

第二是能力，这一点比较难追。FSD有哪些能力是别人没有的？比如特斯拉会礼让特殊车辆，有极窄通行时的感知精准度，它会识别交警指挥，这些能力非常强。

詹锟表示，马赫M100芯片上车后，随着大量性能释放，可以做到效率更高、反应更快；而在能力建设上，理想也在做架构升级与数据收集等尝试。

“如果这两个方面能追上FSD V14，就是一个很厉害的结果”，詹锟判断。

詹锟

他补充称，理想也在推进更高视觉帧率的模型开发。下半年最重要的两件事是，第一，用纯视觉提高帧率，把芯片性能发挥到更大，带来反应速度大幅提升。第二，LiDAR（激光雷达）会承担很重要的数据采集环节，它对L3、L4各种极端场景很有帮助，“我们会持续提升安全，安全不能妥协。”

过去几年的智驾竞赛让大量中小玩家陆续出局，智驾赛道明显收敛。国内头部厂商的差距有所缩小，但和特斯拉的差距整体并未缩短，跨越这道鸿沟，是理想关注的重点。

理想汽车CTO谢炎说，如果只做L2或L2+的辅助驾驶，采用外购方案或者分开研发底盘悬架、智驾、动力系统，也能应对驾驶需求。

但如果将汽车视为向高阶自动驾驶演进的移动机器人，就要求车辆在横向转向、纵向加减速、主动悬架、制动、底盘执行等方面的高度协同。

自研芯片，构建软硬件一体的全域整合成为必然选择。

这也是超越英伟达、行业有机会进入“Native for AI”的历史时机。如果沿用英伟达的技术路线，就像是和博尔特进行100米赛跑，“他比你早跑2秒，想赢过他是不可能的”，谢炎说。

马赫M100芯片跳出冯·诺依曼架构的固有框架，转而选择数据流架构——只有这条技术路线，才能同时满足性能超越Orin的4倍，成本做到一半甚至更低的研发目标。

谢炎

纵观人类技术发展史，技术进入平台期后行业分工将会细化，就像2010年前后的PC行业，芯片、系统、应用、制造完全相互独立。

但技术处于高速发展阶段时，企业需要打破现有分工，重新完成上下游整合。

当前的高阶自动驾驶、汽车机器人技术路线尚未收敛，行业还处在探索的无人区。

对于理想来说，想要跳出同质化竞争，建立差异化壁垒、就要攻克当下行业难以落地、供应商无法交付的全栈软硬一体化能力，这也是全域自研整合的核心价值。

软件发布会后的第二天，谢炎、詹锟出席小范围群访，用2小时20分钟的时间拆解理想关于具身智能的技术图景，以下为对话原文，雷峰网进行了不改变原意的编辑：

年末智驾水平对齐FSDV14

问：L9 Livis上市后，不少用户反馈智驾变道和加速度不够积极。请问这主要是什么因素影响？芯片和平台迁移后，怎么才能恢复并超越此前的体验水平？

谢炎：其实我们的整体能力，内部评分比之前高很多，这个模型现在的上限非常高，变道切换非常类人。

加速度在后续版本会改进，这不是真正难的问题。真正难的是要扩大模型感知与认知能力的上限。

很多公司都是先发芯片，再花一段时间适配上车。我们不仅提供了高阶的智驾、城市NOA（城区领航辅助驾驶），而且比上一版本能力强很多。

我在自己朋友圈发了，我们在特别小的路上开，能够绕开所有的车，在非常窄的3米路况上也可以通行。

詹锟：我承认当前版本有一些特性，不一定那么讨好。“慢”的反馈，是我们这个版本的风格选择，这不是一个难的事情。我相信你能感受到，它的舒适性包括加减速、平顺度比之前高很多。像炎哥说的，这一代确实比上一代好不少。

问：若要达成整体智驾能力对齐特斯拉FSD V14 的目标，后续还需要跟进哪些相关工作？

詹锟：想要追赶FSD，首先要明确追赶的标准，怎样才算追上FSD V14。

我认为追上FSD有两个层面。

第二是能力，这一点也很难追。FSD有哪些能力是别人没有的？比如特斯拉会礼让特殊车辆，有极窄通行时的感知精准度，它会识别交警指挥，这些能力非常强。

如果我们能做到这两项，就能追上FSD。

在基础体验上，这需要非常好的评价体系。我们希望从自己的测试团队和产品团队开始，跟用户和媒体一起想，怎么去评价我们的模型——它的安全感、舒适和效率怎么平衡。这里有很多方法，我们很有信心可以追上FSD V14的水平。

再加上我们芯片性能还没完全释放，我们可以效率更高、反应更快，这个问题不大。

关于能力，这里有架构升级的机会。为什么只有特斯拉做到了？可能是以前的范式限制了能力，有架构的原因，也有数据的原因。例如它找到的倒车数据是采集还是合成；这些坑坑洼洼的信息怎么传回去，我们在这个层面做了很多尝试，目前也有一些初步的实践结果。

如果这两个方面能追上FSD V14，就是一个很厉害的结果。

问：前年有一个共识，理想、华为、小鹏处于自动驾驶的第一梯队。今天似乎各家的差距在缩小，自动驾驶的Scaling Law（规模效应）似乎没有起来。接下来理想要拉大差距的话，会做什么事？

詹锟：一年前到现在，智驾格局确实发生了变化，感觉差距变小了。

但另一个角度看，很多玩家出局，智驾赛道出现收敛。

智驾是重投入，一个公司的算法不是带到另一个公司就能转起来，它是一个系统，涉及到系统、人、技术、算力、平台，这是很大的壁垒，无法在短期内建起来。

为什么感觉第一梯队差距没拉大？这里要思考，我们如何建立护城河，让别人无法快速追上。我认为要参考特斯拉。

第一，全栈才能建立真正的护城河。算力、芯片、基础设施能不能完全统一在自己的可控范围内，这很重要。如果你只是算法，中美之间的人才流动很快，很容易被迁移。但如果做到全栈，迁移成本很高，也很难。

第二，下苦功夫。比如精细地洗数据。这里有很多细节，这些细节并不高大上，但这些一点一滴的细节才能形成护城河。我们也会在这方面持续加大投入，逐步把护城河建起来。

虽然第一梯队之间的差距感觉变小了，但大家跟特斯拉的距离并没有缩小，特斯拉还是很强。如果我们完成年底追上特斯拉的计划，是有机会脱颖而出的，也是我们一直想做的事情。

问：理想经过很多次智能化的体系调整，最终把芯片、基座模型和智能辅助驾驶整合成统一的（团队），您作为CTO视角来看，理想的“三位一体”和特斯拉的FSD、HW、xAI相比，差异化的护城河在哪？是组织效率，还是技术路径的差异？

谢炎：跟特斯拉相比，大家出发点是一样的。想围绕AI做出强竞争力，要从两方面来看。

第一，需要快速迭代。今天的AI发展很快。芯片领域，英伟达不仅自己迭代快，还不断收购公司补充自己的技术，说明这个行业竞争非常激烈。

所以快速迭代，是我们组织整合的目标，几个团队更紧密地合作，迭代速度会上去。

第二，需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代，如果没有自己的芯片，只做自己的模型，如果遇到需要芯片和模型联合设计，才能把问题解决得更好的情况下，我们就失去了这样的机会，特别是一些大的创新。

我个人观点是，当技术发展到平台期时，这时分工会很细。比如PC（计算机）发展到2010年时，分工非常细，芯片、系统、应用、制造相互独立。

但技术处于高速发展期，斜率非常高时，很多公司需要在技术边界上打破分工，重新做整合。

比如英伟达，之前只做芯片，现在连封装和机架都通过收购来做。如果分成多家公司，效率是非常低的，甚至是不可能的。

英伟达做Vera Rubin（AI超级芯片平台）时，不仅是多种处理器，还涉及机架、散热技术、互联技术。虽然英伟达是做计算的公司，但现在全拓展开了。

在技术快速发展的时代，这是有志于领先的公司要走的一条路。这个投入肯定不小，很多公司不具备这种能力。

在我们团队，我做过操作系统、架构、应用层等AI各个方向，所以我们整合效率相对更高。

除此之外，组织规模小也是优势。如果需要高密度、高整合度，组织规模不能太大，否则就会导致很多部门墙，自己成为一道闭环，相互之间的合作就会很难。

这是我强调比较小的组织规模的原因，让合作更紧密。

跟随英伟达路线跑不赢，理想换道造芯

问：之前一直是冯·诺依曼架构整个芯片体系，现在我们第一次看到动态数据流架构用起来了。两个问题：第一，四年前您看到了什么需求和变化？第二，您提到整个链条要从头到尾全部变短才是真正的全栈优化，背后的组织是怎么实现的？从产品到技术到组织，您作为CTO是如何重构协作体系的？

谢炎：为什么要自研？我和李想非常一致的意见：自研不是为了证明自己有能力做，而是真正去解决问题。

四年前我们看到的问题：一是算力成本非常高，而且会不断变高，因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。

当时我们用英伟达和地平线，我们给自己定的目标是，如果做不到比外购芯片更好，那做的意义不大。当时定的目标是4倍Orin的性能。

这个目标不是瞎定的，我们花了半年时间分析。要做得比英伟达更好，用英伟达的技术路线是不可行的。它比你早启动几十年，积累比你深，资源比你多几个数量级。就像你跟博尔特在100米赛道上，他比你早跑2秒，你不可能超过。唯一的机会就是跑另外一条路径。

在这个思路的指引下，我们开始扔掉以前的架构依赖，回到本质，从第一性原理看AI计算本身还有什么机会。

我在读研究生时，我导师高光荣教授是数据流架构的奠基人之一，他在MIT时就做这个事。当然在通用计算时代并不成功。

我们发现，冯·诺依曼架构相当于帮人类做一个中介去实现计算，中间有翻译层，这个翻译帮助人类更好地去编程，但中介和翻译会降低效率。

如果回到计算的本质，可以把中间的翻译拿掉。当然的确很少有企业做过实践，中国也是如此。

所以大家看到的机会都是一样的，关键是如何极致地解决这个问题，从第一性原理来倒推。我们四年前定了这样的目标，并且觉得是可行的。

关于组织协作。为什么垂直整合比较重要？因为要做到这一点，只有硬件团队不够，还必须有模型团队。我们设计芯片时，软件团队、模型团队坐在一起分析。

可能跟其他公司不一样，我们是几个团队坐在一起，大家比较兴奋——之前很多做软件的人根本没有机会直接对硬件团队提需求。

在组织上，我们希望以某一个核心的、有挑战的目标为中心，围绕它构建项目团队。这是一种软的合作机制。实际团队是分开的，但像一团篝火一样，硬件、软件、模型的团队，在大目标下共创、实现。

我们内部越来越多的项目会往这个方向走。

问：马赫M100是否因为没设计PCIe（一种高速的计算机总线标准）接口，导致对自动驾驶来说两颗芯片协同用处不大？额外一颗芯片的核心用处是什么？

谢炎：我认为未来智驾需要更多的算力。

2022年我们设计芯片时的目标是，性能要达到当时最好芯片的4倍。PCIe控制器本身也占一些面积和成本，所以就没有加。某种程度来说，我认为加上会更好，但没有PCIe也完全可行。

当未来的智驾能力更强时，也许是两年后，需求就不一样了。

今天有一些云端的大模型最终要落到本地，特别是跟舱内视觉相关。很多人会敏感，觉得舱内摄像头把车内信息都上传到云端不安全。

比如你在地库跟一辆车像跟机器人一样交流，而地库没有信号，需要很强的本地大模型。这就要有另外一颗芯片，更好地承担这部分工作。

问：是否因为M100是数据流架构的AI推理芯片，所以相较其他友商的自动驾驶芯片，对带宽需求没那么高，对片上存储需求更高？

谢炎：关于这个个问题，我们对带宽的要求会低，但这也并不是设计SRAM容量（不是显存）的直接原因。

现在HBM（高带宽内存）很火，很多人觉得带宽越高越好。

计算，带宽，SRAM等都需要晶体管代价来实现，最终的设计都是成本/综合性能等综合设计考量后的选择。

不同的架构设计，仅靠一两个指标来做简单对比，既不合理也不专业。就像打拳击比赛，高有高的优势，体重大有体重大的优势，但不是由单一指标决定胜负。泰森，既不是最高也不是最重的，却是拳击最强的那一个。

M100通过编译器显式编排数据搬运与计算时序，绝大多数张量数据在片上流动完成算子运算与中间结果传递，大幅减少了对于直接进出DDR的访存次数，因此对外部DDR带宽依赖更低。

问：马赫M100芯片定义为AI推理芯片，而不是AI训练芯片，这两者的边界是什么，背后的思考是什么？I训练领域英伟达很垄断，跟它做竞争是不是很难追上？AI推理是个非常好的市场，怎么看AI芯片的市场格局或规模？

谢炎：我认为，AI计算的算力市场，最终会出现99%的推理，训练只占很小的部分。

从这个角度来讲，今天中国和美国大量的公司在为了更高的效率专门做推理芯片，因为推理市场更大。如果推理市场没起来，说明AI没有真正落地。

从我们的角度而言，我们公司先要解决推理问题。训练的话，用市场上好的训练芯片，已经够用。

从经济模型角度来讲，训练要的是效率，要在足够短的时间内迭代。它对成本不太敏感。英伟达最高端的芯片，很多公司以翻倍的价格也愿意买。

但推理芯片不一样，它要同时考虑成本与效率，而且成本比重非常高。从解决公司和业务问题来讲，推理跟我们想要达到目标的gap（差距）更大。

如果我们做一件事的话，我们就解决机会最大的问题。

“做芯片不领先，不解决问题，钱就白花了”

问：自研芯片背后需要什么条件？比如销量、营收、研发投入。目前自动驾驶迭代速度很快，芯片要持续迭代的话，需要什么样的条件？

谢炎：首先要达到一定的营收规模。对车企来说，营收规模一年1000亿以上，研发投入至少10%，就有大几十亿到上百亿，每年投钱研发芯片是可以的。

其次，研发芯片，要让产品能力更强。十年前，一些房地产公司也做高科技，但这对主营业务帮助非常小。比如房地产公司去投芯片，对卖房子没帮助，对未来也没帮助，更多是象征意义。

以上是最重要的两个条件。

这里有个误区，很多人说芯片要有很大的出货规模。其实芯片的成本和面积相关。

一辆车上的智驾芯片，比如Livis是2颗马赫M100，加起来800平方毫米。而一部高端手机芯片大概100平方毫米，所以一辆车的智驾芯片相当于8台手机的芯片面积。

可能车的量比较少，但大几十万辆车需要的晶圆面积非常大，完全可以摊薄成本。所以成本不能仅用颗数来衡量。有的IT公司说一年出货好几亿颗，但其实每颗面积非常小。不能脱离背景只谈量，这是不完整的。

我们在马赫M100立项时算过，做芯片是会让公司效益变好。我们不是为了证明自己能做而做，不仅性能要做到最好，也要帮助公司省钱。

问：这两年头部车企都在做芯片。长期来看，最终会有多少车企坚持深度自研芯片？从理想的角度来讲，您觉得未来有多少车企会真正做成自研芯片？

谢炎：为什么这么多车企发布芯片，是不是很容易？其实挺不容易。我们自己做这颗芯片花了4年，在新势力里我们启动最晚。

但发布芯片后，还要看最领先的模型的上车时间。除了我们以外，其他家一般要5年时间甚至更长，我们是最快的。

所以要有耐心，第一颗芯片如果自己做，一般要5年，没那么容易。

做一颗芯片和做一颗领先的芯片，难度又不一样。有些公司做了芯片，但这颗芯片不够领先。我跟李想说过，我最担心的事不是做不出来，最糟糕的事情是做出来了但它不领先，那公司这个钱就白花了，这是我最不想看到的结局。

业界并不是每一家公司都能做到。现在很多公司宣布做了，但并没有真正落到车上。要看它什么时候落到车上，什么时候把最高端的智驾用自研芯片跑起来，并且还能做好用户体验。

再者，是不是所有车都能用。有的公司为了证明自己能用，只用了一款车型，出货量只有几千辆，其他车还是用外购芯片，说明它也知道没有解决真正的问题。

我认为要看几个指标：能不能全量、快速上车，能不能搭载最先进或最新一代模型、能不能持续迭代。

做一代芯片不说明问题，最终要做出第二代、第三代。很多公司只做了第一代，第二代就不做了。有些公司也可能买个IP就做了，也可以宣传自己自研。

但我们不是，我们连论文都可以看到，这个世界上没有第二个芯片跟我们做的一样，甚至连这个思路都是我们提出来的，没有任何已有的IP可以follow。

问：在当下芯片产业链快速发展的情况下，哪些环节是被加速的，哪些过程是必须要经历的？

谢炎：有些技术是成熟的，比如偏后端的部分，有点像造房子，找工程队垒砖，是可以找到供应链加速。但是真正要做到量产、做到最领先，软件设计要自己做。如果连软件都外包，不可能迭代芯片性能。

如果做芯片要持续领先，仅仅做芯片设计，做成GDS2（版图数据库），交给Fab（晶圆厂）去做流片，这也不够。

很多部分还要跟封装厂联合设计，要垂直整合。有些技术不仅仅是货架商品，由别人提供就可以，你要深入到封装制造领域才能领先。

我们不会停留于此，会越做越深。

问：昨天理想说是全世界性能最强的AI芯片，引起了很大的讨论，有一些质疑的声音。他们会说，小鹏、蔚来、比亚迪都说自己很领先。跟这些友商相比，理想的领先性体现在哪些方面？

谢炎：为什么敢说是世界第一？因为我们跟市面上标准可以获得的芯片做对比，它是英伟达Thor-U三倍的性能。

我们也跟一个第三方测试机构聊过，他们说其它家不愿意拿出来做比较。如果要公平地比较，可以拿到一个公平、综合的Benchmark去做合适比较、做测试。

做芯片基本要5年时间，而我们基本快4年上车，而且把所有模型都跑起来，已经很快了。

昨天有些同行说，看了我们的论文说，把论文写得那么详细，别人家拿你的论文是不是就可以复刻。但我们不担心，因为架构要落地是非常长的距离，而且中间有很多坑，只有真正做才知道，才能迈过去，迈不过去，就停在那儿了。

数据流架构for AI是一个大的技术方向，它比其它架构更适合，我希望更多的同行能跟随这条路。就像冯·诺伊曼提出技术路线，很多公司跟随。从更长时间来看，这不是一件坏事。

从L2到L4迈进，需要全域自研

问：我们一直在提全域的软硬一体，包括主动悬架等系统，其他车企也做了零散式的开发。理想说的全域一体，到底有什么核心优势？

谢炎：假设我们停留在L2、L2+，以自动驾驶为例，不做垂直整合也可以，无非是从供应商采买。

车还是人类监督，人类随时准备接管，开得慢一点、效率低一点也没关系，要求不高。

但理想希望它像机器人一样独立地完成任务，那对它的智能要求就非常高了。不仅是脑子，对手脚的掌握、对加速、轮子、纵向横向的控制，要求都很高。

从L2往L3走的时候有很多问题，今天没有供应商可以解决。分开采买加在一起，有大量的冗余，成本又高，延迟又高，出了问题还很难定位。

要解决未知问题、想达到更高标准时，领先企业一定会选择一起做。当然我不排除20年后技术进入平台期时，会拆分出各种供应商。但在技术还没收敛的阶段，要达到这个目标，必须自己整合。

因为一些问题不好解决，我们才要自己出手。比如L3、L4，今天没有人完全做到，特斯拉也没完全做到，这是无人区，解决这些问题，需要投入巨大的资源。

车的内卷就是因为同质化。要摆脱同质化，就是要做别人不好做或做不到的事。如果供应商能做到，那又同质化了。这就是基本逻辑。

问：数据是这个时代最宝贵的资产。随着理想车队规模的跃升，从理想内部来看，数据的边际效应是不是出现了衰减？我们是怎么定义价值数据的？

詹锟：现在大家对于自动驾驶来说，数据的理解逐渐收敛了。

第一，数据的量要足够大，本质是希望收集到更多的Corner Case（长尾场景）。从Normal Case来看，现在的供应商都已经可以采集了，找个几百人的车队就可以去采，Normal Case是足够的。但是采集Corner Case非常难，必须要足够大的车队才行。

基数大，但不是说把所有数据都传回来。现在大家有很多方法在车端做出很好的neural trigger（神经网络触发器），来判断这个场景是难场景还是简单场景，然后把这些关键数据传回来。这也是现在特斯拉很强的重要原因之一。

对我们来说，现在规模已经很大，主要来源于我们很早就做了很好的基建统一。

我们从理想ONE开始，就可以回传全栈所有数据。现在到了Livis具身智能更强了，在360°点云和摄像头数据做了精准的对齐，这些数据给了我们长尾收敛、思考问题的机会。

第二点，质量要高，指行为质量高。现在逐渐收敛到端到端的范式，可以做VLA（视觉-语言-行为模型）、World Model（世界模型）还是Vision-Action（视觉-动作模型），行为的干净程度、一致性很重要。

这对于使用众包车队的公司来说很有挑战。因为每个人的开车习惯不一样，怎么在众包用户中找到一致性。是我们努力做的事，也看到了很多机会点。

相比于采集车队来说，采集众包行为没那么好控制，但我通过算法可以迅速把好的行为留下来，坏的行为去掉。比如每次过红绿灯时，是否稳定的加速度；遇到丁字路口时，能否稳定减速；每次超车时是否合理变道，这些都需要清晰的判断。

我们通过后面完整的数据来看，就可以知道他的每一个行为是不是合理。这对于我们来说非常重要，也是我们现在投入最大力度做的事情。

数据规模上去，边际效应有没有衰减？首先，只要模型上去了，只要我们能力往100分去够，一定是“对数曲线”，慢慢衰减，不可能线性增长，任何公司做AI都是这样。

但是我们的数据质量，能随着车队规模的增大而增长，其实也在抵抗对数，我们有更多的机会采集到我们想要的数据。虽然越往后面，数据收敛的作用就没那么快，但我们也希望通过规模，把速度加起来。

问：理想是在什么时候开始研发3DViT这个技术路径的？3DViT目前能达到跟激光雷达一样的效果吗？

詹锟：3DViT来自于去年的CVPR的论文VGGT（VGGT: Visual Geometry Grounded Transformer），这证明了2D视觉也能学会完整的3D空间结构，证明了Scaling Law在3D空间的全新可行性。

之前团队一直在往这方面探索和尝试，中间做了很多方案的取舍和权衡。我们看到3D ViT对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果，去年才正式从研究探索阶段转入产品开发阶段。

在这个过程中，我们把它变成一个真实项目，放到最新的马赫VLA里。原先马赫VLA不一定使用3D ViT，但有了会更好。

3D ViT后续还有更大的改进与优化空间，这也是追上FSD V14很重要的一环，中间视觉信息能不能表征清楚，这是非常关键的。

3D ViT是一个纯视觉方案，它不依赖于激光雷达。它基于视觉，把空间建模成带有色彩信息的全彩点云，基于更强的视觉编码器和空间视觉表征，做到更丰富的3D理解。

关于帧率和激光雷达效果，这其实是两个问题。高帧率主要是提高反应速度，因为激光雷达帧率有限，只有10Hz，视觉能做到30Hz甚至更高，我们基于视觉能做到更高的反应速度。

能不能达到激光雷达的效果？我们是有信心的。因为我们最新所有的车都标配了激光雷达，激光雷达对纯视觉方案有非常强的监督和校验作用。

问：两个问题：第一，五年后或者再往后看两代产品，理想汽车车内的算力中心有没有可能全部使用自研的马赫芯片？第二，我们看到提升模型帧率对系统体验有明显改善，什么时候能看到更高帧率的模型上车，是7月、9月还是12月？

谢炎：我们认为，舱驾一体最核心的是AI算力部分，其他部分是不是一体没那么关键。座舱跟AI智驾系统可以完全独立，但AI算力可以集中在一起，这样分配效率会高很多。

所以我们路线图的最终形态是车内一个AI计算中心，所有AI任务都可以到这个计算中心去计算。就像笔记本上跑OpenClaw一样，AI的计算不在笔记本上，而是在Token Provider Server（Token供应服务器）上，车里也类似，有一个Token Server（Token服务器）。

这个Token Server的优势：第一，效率非常高。第二，能做到不同任务互相隔离、互不影响。比如智驾任务的确定性——无论是内存还是带宽，能够保证不被其他任务干扰，这是软件和硬件一起设计才能实现的。只靠芯片提供商做不到这一点，需要软件跟硬件一起配合设计。

我们的优势在于，可以把一些计算单元完全隔离给智驾用，另一部分给其他任务用。如果是通用的SRT（Secure Reliable Transport，安全可靠传输协议）架构，它不能完全做到这一点，因为这些东西藏在硬件里，而硬件并不知道上层应用的语义。

詹锟：LiDAR（激光雷达）我们不是去掉了。但LiDAR能不能作为前融合的主传感器，这需要我们思考。

LiDAR的帧率有物理限制，因为机械结构的原因，至多10到15赫兹。如果想做到更高的输入频率，只能靠视觉。更高的输入频率对细节反应有很大提升，特斯拉的细节反应速度就是这么来的。

所以我们必须拉高上限，基于纯视觉把输入上限拉高。我们正在往这个方向做，大概率会在某一个节点切入到类似的水平。

我们内部有很多版本的纯视觉方案，要以实践结果来证明。特斯拉是36赫兹的输入，输出不一定是36赫兹。所以我们要提高帧率，接下来会先上15赫兹、20赫兹。纯视觉带来更好效果以后，我们就会替换上来。

第二，LiDAR有一个很大的优势，就是对L3和L4场景下的安全兜底。我们会一直往L4方向去努力。毕竟纯视觉输入信息有限，而LiDAR在极端情况下可以帮你解决很多问题，所以LiDAR的作用很重要，我们会通过其他方式保证更强的安全。

基于这样的判断，下半年最重要的两件事：第一，用纯视觉提高帧率，把芯片性能发挥到更大，反应速度大幅提升。第二，LiDAR会承担很重要的数据采集环节，它对L3、L4各种极端场景很有帮助，我们会持续提升安全，安全不能妥协。

高技术产品的商业化落地要循序渐进，无法一步到位

问：基座模型怎么从车扩展到其他终端？它的瓶颈是数据、运控，还是模型本身的范式？所以能不能真正统一车和机器人这两种不同的终端形态？

詹锟：我认为这个gap（差距）很大。切换到机器人的导航没问题，但如果切换到操作上，模型不是那么一样。或者说Foundation（基座）只是一个非常基本的，后面一定是千差万别。

车里面包含了Language语言智能，这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。DeepMind Robotics团队有个ER模型（Gemini Robotics-ER），就是来自Gemini的，把语言思考上的能力从通用场景迁移到机器人上。

我们把物理机器人分成三个关键任务。

一是具身交互，我们跟它沟通、交流、思考，让它做任务规划。

二是移动，自动驾驶从A点到B点，无碰撞、安全、高效地到达目的地。

三是操作，狭义的具身，是一个独立任务，是开放性场景，业界很多人都在探索，包括硬件、数据都是不完善的。这三个任务任意的组合，都会形成非常有价值的商业模式与价值形态。

这是我们的想法，我们的车有机会把这三点都涵盖。涵盖以后，我们想长成任何一个物理的具身本体都有非常大的机会。你说我们有没有共同基座？我们肯定有云端的共同基座。但这个基座是不是放在任何任务上就能直接用？我觉得比较难。

但它作为基座，提供海量的数据支持、训练环境，能提供Foundation Model（基座模型）的baseline（基线），帮助你快速做下个任务的收敛，这是很有帮助的。所以这也是我们成立基座模型团队的原因，我们会有基座来支撑各个业务，但每个业务有自己的特点。

问：如果未来同时引入了大量的Agent应用，这套架构能不能很好地应对Agent爆发式的流量？模型的通用性是一方面，带宽和并行能力能不能应对Agent的爆发？

谢炎：您可能想问它的通用性问题。我们芯片第一个重要的业务毫无疑问是自动驾驶，但我们没有做成只能跑一个模型。它的数据流可以跑任何模型算子，不仅可以跑自动驾驶，也可以跑语言模型，昨天我介绍了我们能跑Qwen 35B（通义千问350亿参数模型）。

我们是个端侧芯片。作为端侧芯片，它的服务query（请求）不会很多。如果我们设计一个云端芯片，是同时服务1000个用户。但端侧芯片的要求不一样，它服务的对象往往只有一两个任务，它要求的是更短的延时，而不是服务更多的对象。如果是云端芯片，架构还是数据流，但设计和端侧芯片就不一样了。

问：今年理想新做的3DViT技术，之前的智驾感知是先做BEV（鸟瞰图），先拍图，后面再做OCC（占用网络）立起来，再到3DViT（三维视觉Transformer），更接近于人类的感知。倒着看有点像弯路，为什么会走这个弯路？

詹锟：我认为这不叫技术的弯路。

无论是做模型还是三维空间建模，我们把OCC定义为空间建模，这些思想都来自于上世纪。CNN（卷积神经网络）是80年代的东西，只不过2012年GPU发展时才爆发。LSTM（长短期记忆网络）也是1997的东西，到了2010年才逐渐应用。Transformer也是如此，稠密计算很早就有了，但之前没有爆发。

本质是随着当前的基础设施、硬件、算力统筹升级，不是说有一个想法就能直接用起来。所以技术迭代会一直跟随当前的环境、硬件、任务需要在变。

从自动驾驶来说，2022年特斯拉在发布会上讲BEV方案，方案也不是新的，只是基于它的强大算力，在特征级把场景做融合。由于算力就那么大，不能做很深的稠密高度估计，只能变成单层或者采样很稀疏的BEV。

到了OCC阶段，是把稀疏变密，这是算力或硬件的一次升级带来的东西。

3DViT是什么？可以理解为基于3DGS（三维高斯溅射）或全新稠密三维空间的新的三维表示。从2025年到2026年，CVPR（计算机视觉与模式识别会议）的Best Paper都是这个领域。

去年的论文是剑桥大学做的，基于图像直接投射出三维空间，直接预测三维深度。2026年的CVPR是DeepMind基于传感器把三维空间动静分离。所以我们未来三年内，就是基于这个路径做。

之前认为的栅格化、需要人类表征的东西，变成不用表征。OCC先不定义类别，任何物体和任何元素我都可以投射三维空间，它有外观、RGB、纹理、属性。这样的建模方式需要随着下一代的算力增加才能做到。

它不是绕弯路，而是思想随着条件的成熟才能用起来。

随着大家相信Scaling Law（规模定律），把模型规模和参数规模越提越高，让这些思考发挥越来越大的作用。如果算力不够用，规模不够，想法再好也实现不了效果。

谢炎：高科技技术产品的商业化落地是一步一步的。

特斯拉早期没有Mobileye，就没有今天的FSD。今天来看，会说Mobileye的方法太古老了，为什么它不能一下子做到端到端？因为当时的条件完全不具备。而条件完全不具备时去做，不能完全落地，也不能商业化。

所以先从Mobileye的技术栈开始，再到FSD的第一代，不断完善。它在2021年有很多规则，现在规则越来越少。商业化是一步一步做的，认为有好的想法就应该一步到位，这不太现实。

（作者长期关注蔚小理和智能驾驶的技术与人事动态，欢迎添加微信 ColombaHere 交流讨论。）对话理想谢炎&詹锟：年末追平特斯拉FSD图8

近期热门文章