对话理想谢炎&詹锟:年末追平特斯拉FSD

雷锋网 2026-06-18 18:50
对话理想谢炎&詹锟:年末追平特斯拉FSD图1
对话理想谢炎&詹锟:年末追平特斯拉FSD图2
国内第一梯队差距在缩小,但为何与特斯拉的差距没缩小? ”   

作者丨倪萍

编辑丨王瑞昊
对话理想谢炎&詹锟:年末追平特斯拉FSD图3


四年前,理想内部启动马赫芯片项目,以解决算力成本持续上升、外购芯片方案不匹配需求两大难题。

四年后,马赫M100芯片随着理想L9 Livis正式发布,推动理想放出豪言:智驾能力要在年底追平特斯拉FSD V14。

这成为下半年理想留给外界的最大悬念。

智驾追平特斯拉,是头部车企都曾提出的口号与目标。理想汽车自动驾驶、基座模型负责人詹锟将这个问题拆分为两个维度。

第一是基础体验,具体是三方面:安全感、效率、舒适度是否能达到FSD的同等水平。如果开过FSD,它的安全感非常足,效率很好,舒适度很好,这是它的基本功。

第二是能力,这一点比较难追。FSD有哪些能力是别人没有的?比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,它会识别交警指挥,这些能力非常强。

詹锟表示,马赫M100芯片上车后,随着大量性能释放,可以做到效率更高、反应更快;而在能力建设上,理想也在做架构升级与数据收集等尝试。

“如果这两个方面能追上FSD V14,就是一个很厉害的结果”,詹锟判断。

对话理想谢炎&詹锟:年末追平特斯拉FSD图4

詹锟

他补充称,理想也在推进更高视觉帧率的模型开发。下半年最重要的两件事是,第一,用纯视觉提高帧率,把芯片性能发挥到更大,带来反应速度大幅提升。第二,LiDAR(激光雷达)会承担很重要的数据采集环节,它对L3、L4各种极端场景很有帮助,“我们会持续提升安全,安全不能妥协。”

过去几年的智驾竞赛让大量中小玩家陆续出局,智驾赛道明显收敛。国内头部厂商的差距有所缩小,但和特斯拉的差距整体并未缩短,跨越这道鸿沟,是理想关注的重点。

理想汽车CTO谢炎说,如果只做L2或L2+的辅助驾驶,采用外购方案或者分开研发底盘悬架、智驾、动力系统,也能应对驾驶需求。

但如果将汽车视为向高阶自动驾驶演进的移动机器人,就要求车辆在横向转向、纵向加减速、主动悬架、制动、底盘执行等方面的高度协同。

自研芯片,构建软硬件一体的全域整合成为必然选择。

这也是超越英伟达、行业有机会进入“Native for AI”的历史时机。如果沿用英伟达的技术路线,就像是和博尔特进行100米赛跑,“他比你早跑2秒,想赢过他是不可能的”,谢炎说。

马赫M100芯片跳出冯·诺依曼架构的固有框架,转而选择数据流架构——只有这条技术路线,才能同时满足性能超越Orin的4倍,成本做到一半甚至更低的研发目标。

对话理想谢炎&詹锟:年末追平特斯拉FSD图5

谢炎

纵观人类技术发展史,技术进入平台期后行业分工将会细化,就像2010年前后的PC行业,芯片、系统、应用、制造完全相互独立。

但技术处于高速发展阶段时,企业需要打破现有分工,重新完成上下游整合。

当前的高阶自动驾驶、汽车机器人技术路线尚未收敛,行业还处在探索的无人区。

对于理想来说,想要跳出同质化竞争,建立差异化壁垒、就要攻克当下行业难以落地、供应商无法交付的全栈软硬一体化能力,这也是全域自研整合的核心价值。

软件发布会后的第二天,谢炎、詹锟出席小范围群访,用2小时20分钟的时间拆解理想关于具身智能的技术图景,以下为对话原文,雷峰网进行了不改变原意的编辑:


01

年末智驾水平对齐FSDV14

问:L9 Livis上市后,不少用户反馈智驾变道和加速度不够积极。请问这主要是什么因素影响?芯片和平台迁移后,怎么才能恢复并超越此前的体验水平?

谢炎:其实我们的整体能力,内部评分比之前高很多,这个模型现在的上限非常高,变道切换非常类人。

加速度在后续版本会改进,这不是真正难的问题。真正难的是要扩大模型感知与认知能力的上限。

很多公司都是先发芯片,再花一段时间适配上车。我们不仅提供了高阶的智驾、城市NOA(城区领航辅助驾驶),而且比上一版本能力强很多。

我在自己朋友圈发了,我们在特别小的路上开,能够绕开所有的车,在非常窄的3米路况上也可以通行。

詹锟:我承认当前版本有一些特性,不一定那么讨好。“慢”的反馈,是我们这个版本的风格选择,这不是一个难的事情。我相信你能感受到,它的舒适性包括加减速、平顺度比之前高很多。像炎哥说的,这一代确实比上一代好不少。

问:若要达成整体智驾能力对齐特斯拉FSD V14 的目标,后续还需要跟进哪些相关工作?

詹锟:想要追赶FSD,首先要明确追赶的标准,怎样才算追上FSD V14。

我认为追上FSD有两个层面。

第一是基础体验,具体是三方面:安全感、效率、舒适度是否能达到FSD的同等水平。如果开过FSD,它的安全感非常足,效率很好,舒适度很好,这是它的基本功。

第二是能力,这一点也很难追。FSD有哪些能力是别人没有的?比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,它会识别交警指挥,这些能力非常强。

如果我们能做到这两项,就能追上FSD。

在基础体验上,这需要非常好的评价体系。我们希望从自己的测试团队和产品团队开始,跟用户和媒体一起想,怎么去评价我们的模型——它的安全感、舒适和效率怎么平衡。这里有很多方法,我们很有信心可以追上FSD V14的水平。

再加上我们芯片性能还没完全释放,我们可以效率更高、反应更快,这个问题不大。

关于能力,这里有架构升级的机会。为什么只有特斯拉做到了?可能是以前的范式限制了能力,有架构的原因,也有数据的原因。例如它找到的倒车数据是采集还是合成;这些坑坑洼洼的信息怎么传回去,我们在这个层面做了很多尝试,目前也有一些初步的实践结果。

如果这两个方面能追上FSD V14,就是一个很厉害的结果。

问:前年有一个共识,理想、华为、小鹏处于自动驾驶的第一梯队。今天似乎各家的差距在缩小,自动驾驶的Scaling Law(规模效应)似乎没有起来。接下来理想要拉大差距的话,会做什么事?

詹锟:一年前到现在,智驾格局确实发生了变化,感觉差距变小了。

但另一个角度看,很多玩家出局,智驾赛道出现收敛。

智驾是重投入,一个公司的算法不是带到另一个公司就能转起来,它是一个系统,涉及到系统、人、技术、算力、平台,这是很大的壁垒,无法在短期内建起来。

为什么感觉第一梯队差距没拉大?这里要思考,我们如何建立护城河,让别人无法快速追上。我认为要参考特斯拉。

第一,全栈才能建立真正的护城河。算力、芯片、基础设施能不能完全统一在自己的可控范围内,这很重要。如果你只是算法,中美之间的人才流动很快,很容易被迁移。但如果做到全栈,迁移成本很高,也很难。

第二,下苦功夫。比如精细地洗数据。这里有很多细节,这些细节并不高大上,但这些一点一滴的细节才能形成护城河。我们也会在这方面持续加大投入,逐步把护城河建起来。

虽然第一梯队之间的差距感觉变小了,但大家跟特斯拉的距离并没有缩小,特斯拉还是很强。如果我们完成年底追上特斯拉的计划,是有机会脱颖而出的,也是我们一直想做的事情。

问:理想经过很多次智能化的体系调整,最终把芯片、基座模型和智能辅助驾驶整合成统一的(团队),您作为CTO视角来看,理想的“三位一体”和特斯拉的FSD、HW、xAI相比,差异化的护城河在哪?是组织效率,还是技术路径的差异?

谢炎:跟特斯拉相比,大家出发点是一样的。想围绕AI做出强竞争力,要从两方面来看。

第一,需要快速迭代。今天的AI发展很快。芯片领域,英伟达不仅自己迭代快,还不断收购公司补充自己的技术,说明这个行业竞争非常激烈。

所以快速迭代,是我们组织整合的目标,几个团队更紧密地合作,迭代速度会上去。

第二,需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代,如果没有自己的芯片,只做自己的模型,如果遇到需要芯片和模型联合设计,才能把问题解决得更好的情况下,我们就失去了这样的机会,特别是一些大的创新。

我个人观点是,当技术发展到平台期时,这时分工会很细。比如PC(计算机)发展到2010年时,分工非常细,芯片、系统、应用、制造相互独立。

但技术处于高速发展期,斜率非常高时,很多公司需要在技术边界上打破分工,重新做整合。

比如英伟达,之前只做芯片,现在连封装和机架都通过收购来做。如果分成多家公司,效率是非常低的,甚至是不可能的。

英伟达做Vera Rubin(AI超级芯片平台)时,不仅是多种处理器,还涉及机架、散热技术、互联技术。虽然英伟达是做计算的公司,但现在全拓展开了。

在技术快速发展的时代,这是有志于领先的公司要走的一条路。这个投入肯定不小,很多公司不具备这种能力。

在我们团队,我做过操作系统、架构、应用层等AI各个方向,所以我们整合效率相对更高。

除此之外,组织规模小也是优势。如果需要高密度、高整合度,组织规模不能太大,否则就会导致很多部门墙,自己成为一道闭环,相互之间的合作就会很难。

这是我强调比较小的组织规模的原因,让合作更紧密。


02

跟随英伟达路线跑不赢,理想换道造芯

问:之前一直是冯·诺依曼架构整个芯片体系,现在我们第一次看到动态数据流架构用起来了。两个问题:第一,四年前您看到了什么需求和变化?第二,您提到整个链条要从头到尾全部变短才是真正的全栈优化,背后的组织是怎么实现的?从产品到技术到组织,您作为CTO是如何重构协作体系的?

谢炎:为什么要自研?我和李想非常一致的意见:自研不是为了证明自己有能力做,而是真正去解决问题。

四年前我们看到的问题:一是算力成本非常高,而且会不断变高,因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。

当时我们用英伟达和地平线,我们给自己定的目标是,如果做不到比外购芯片更好,那做的意义不大。当时定的目标是4倍Orin的性能。

这个目标不是瞎定的,我们花了半年时间分析。要做得比英伟达更好,用英伟达的技术路线是不可行的。它比你早启动几十年,积累比你深,资源比你多几个数量级。就像你跟博尔特在100米赛道上,他比你早跑2秒,你不可能超过。唯一的机会就是跑另外一条路径。

在这个思路的指引下,我们开始扔掉以前的架构依赖,回到本质,从第一性原理看AI计算本身还有什么机会。

我在读研究生时,我导师高光荣教授是数据流架构的奠基人之一,他在MIT时就做这个事。当然在通用计算时代并不成功。

我们发现,冯·诺依曼架构相当于帮人类做一个中介去实现计算,中间有翻译层,这个翻译帮助人类更好地去编程,但中介和翻译会降低效率。

对话理想谢炎&詹锟:年末追平特斯拉FSD图6

如果回到计算的本质,可以把中间的翻译拿掉。当然的确很少有企业做过实践,中国也是如此。

所以大家看到的机会都是一样的,关键是如何极致地解决这个问题,从第一性原理来倒推。我们四年前定了这样的目标,并且觉得是可行的。

关于组织协作。为什么垂直整合比较重要?因为要做到这一点,只有硬件团队不够,还必须有模型团队。我们设计芯片时,软件团队、模型团队坐在一起分析。

可能跟其他公司不一样,我们是几个团队坐在一起,大家比较兴奋——之前很多做软件的人根本没有机会直接对硬件团队提需求。

在组织上,我们希望以某一个核心的、有挑战的目标为中心,围绕它构建项目团队。这是一种软的合作机制。实际团队是分开的,但像一团篝火一样,硬件、软件、模型的团队,在大目标下共创、实现。

我们内部越来越多的项目会往这个方向走。

问:马赫M100是否因为没设计PCIe(一种高速的计算机总线标准)接口,导致对自动驾驶来说两颗芯片协同用处不大?额外一颗芯片的核心用处是什么?

谢炎:我认为未来智驾需要更多的算力。

2022年我们设计芯片时的目标是,性能要达到当时最好芯片的4倍。PCIe控制器本身也占一些面积和成本,所以就没有加。某种程度来说,我认为加上会更好,但没有PCIe也完全可行。

当未来的智驾能力更强时,也许是两年后,需求就不一样了。

今天有一些云端的大模型最终要落到本地,特别是跟舱内视觉相关。很多人会敏感,觉得舱内摄像头把车内信息都上传到云端不安全。

比如你在地库跟一辆车像跟机器人一样交流,而地库没有信号,需要很强的本地大模型。这就要有另外一颗芯片,更好地承担这部分工作。

问:是否因为M100是数据流架构的AI推理芯片,所以相较其他友商的自动驾驶芯片,对带宽需求没那么高,对片上存储需求更高?

谢炎:关于这个个问题,我们对带宽的要求会低,但这也并不是设计SRAM容量(不是显存)的直接原因。

现在HBM(高带宽内存)很火,很多人觉得带宽越高越好。

计算,带宽,SRAM等都需要晶体管代价来实现,最终的设计都是成本/综合性能等综合设计考量后的选择。

不同的架构设计,仅靠一两个指标来做简单对比,既不合理也不专业。就像打拳击比赛,高有高的优势,体重大有体重大的优势,但不是由单一指标决定胜负。泰森,既不是最高也不是最重的,却是拳击最强的那一个。

M100通过编译器显式编排数据搬运与计算时序,绝大多数张量数据在片上流动完成算子运算与中间结果传递,大幅减少了对于直接进出DDR的访存次数,因此对外部DDR带宽依赖更低。

问:马赫M100芯片定义为AI推理芯片,而不是AI训练芯片,这两者的边界是什么,背后的思考是什么?I训练领域英伟达很垄断,跟它做竞争是不是很难追上?AI推理是个非常好的市场,怎么看AI芯片的市场格局或规模?

谢炎:我认为,AI计算的算力市场,最终会出现99%的推理,训练只占很小的部分。

从这个角度来讲,今天中国和美国大量的公司在为了更高的效率专门做推理芯片,因为推理市场更大。如果推理市场没起来,说明AI没有真正落地。

从我们的角度而言,我们公司先要解决推理问题。训练的话,用市场上好的训练芯片,已经够用。

从经济模型角度来讲,训练要的是效率,要在足够短的时间内迭代。它对成本不太敏感。英伟达最高端的芯片,很多公司以翻倍的价格也愿意买。

但推理芯片不一样,它要同时考虑成本与效率,而且成本比重非常高。从解决公司和业务问题来讲,推理跟我们想要达到目标的gap(差距)更大。

如果我们做一件事的话,我们就解决机会最大的问题。


03

“做芯片不领先,不解决问题,钱就白花了”

问:自研芯片背后需要什么条件?比如销量、营收、研发投入。目前自动驾驶迭代速度很快,芯片要持续迭代的话,需要什么样的条件?

谢炎:首先要达到一定的营收规模。对车企来说,营收规模一年1000亿以上,研发投入至少10%,就有大几十亿到上百亿,每年投钱研发芯片是可以的。

其次,研发芯片,要让产品能力更强。十年前,一些房地产公司也做高科技,但这对主营业务帮助非常小。比如房地产公司去投芯片,对卖房子没帮助,对未来也没帮助,更多是象征意义。

以上是最重要的两个条件。

这里有个误区,很多人说芯片要有很大的出货规模。其实芯片的成本和面积相关。

一辆车上的智驾芯片,比如Livis是2颗马赫M100,加起来800平方毫米。而一部高端手机芯片大概100平方毫米,所以一辆车的智驾芯片相当于8台手机的芯片面积。

可能车的量比较少,但大几十万辆车需要的晶圆面积非常大,完全可以摊薄成本。所以成本不能仅用颗数来衡量。有的IT公司说一年出货好几亿颗,但其实每颗面积非常小。不能脱离背景只谈量,这是不完整的。

我们在马赫M100立项时算过,做芯片是会让公司效益变好。我们不是为了证明自己能做而做,不仅性能要做到最好,也要帮助公司省钱。

对话理想谢炎&詹锟:年末追平特斯拉FSD图7

问:这两年头部车企都在做芯片。长期来看,最终会有多少车企坚持深度自研芯片?从理想的角度来讲,您觉得未来有多少车企会真正做成自研芯片?

谢炎:为什么这么多车企发布芯片,是不是很容易?其实挺不容易。我们自己做这颗芯片花了4年,在新势力里我们启动最晚。

但发布芯片后,还要看最领先的模型的上车时间。除了我们以外,其他家一般要5年时间甚至更长,我们是最快的。

所以要有耐心,第一颗芯片如果自己做,一般要5年,没那么容易。

做一颗芯片和做一颗领先的芯片,难度又不一样。有些公司做了芯片,但这颗芯片不够领先。我跟李想说过,我最担心的事不是做不出来,最糟糕的事情是做出来了但它不领先,那公司这个钱就白花了,这是我最不想看到的结局。

业界并不是每一家公司都能做到。现在很多公司宣布做了,但并没有真正落到车上。要看它什么时候落到车上,什么时候把最高端的智驾用自研芯片跑起来,并且还能做好用户体验。

再者,是不是所有车都能用。有的公司为了证明自己能用,只用了一款车型,出货量只有几千辆,其他车还是用外购芯片,说明它也知道没有解决真正的问题。

我认为要看几个指标:能不能全量、快速上车,能不能搭载最先进或最新一代模型、能不能持续迭代。

做一代芯片不说明问题,最终要做出第二代、第三代。很多公司只做了第一代,第二代就不做了。有些公司也可能买个IP就做了,也可以宣传自己自研。

但我们不是,我们连论文都可以看到,这个世界上没有第二个芯片跟我们做的一样,甚至连这个思路都是我们提出来的,没有任何已有的IP可以follow。

问:在当下芯片产业链快速发展的情况下,哪些环节是被加速的,哪些过程是必须要经历的?

谢炎:有些技术是成熟的,比如偏后端的部分,有点像造房子,找工程队垒砖,是可以找到供应链加速。但是真正要做到量产、做到最领先,软件设计要自己做。如果连软件都外包,不可能迭代芯片性能。

如果做芯片要持续领先,仅仅做芯片设计,做成GDS2(版图数据库),交给Fab(晶圆厂)去做流片,这也不够。

很多部分还要跟封装厂联合设计,要垂直整合。有些技术不仅仅是货架商品,由别人提供就可以,你要深入到封装制造领域才能领先。

我们不会停留于此,会越做越深。

问:昨天理想说是全世界性能最强的AI芯片,引起了很大的讨论,有一些质疑的声音。他们会说,小鹏、蔚来、比亚迪都说自己很领先。跟这些友商相比,理想的领先性体现在哪些方面?

谢炎:为什么敢说是世界第一?因为我们跟市面上标准可以获得的芯片做对比,它是英伟达Thor-U三倍的性能。

我们也跟一个第三方测试机构聊过,他们说其它家不愿意拿出来做比较。如果要公平地比较,可以拿到一个公平、综合的Benchmark去做合适比较、做测试。

做芯片基本要5年时间,而我们基本快4年上车,而且把所有模型都跑起来,已经很快了。

昨天有些同行说,看了我们的论文说,把论文写得那么详细,别人家拿你的论文是不是就可以复刻。但我们不担心,因为架构要落地是非常长的距离,而且中间有很多坑,只有真正做才知道,才能迈过去,迈不过去,就停在那儿了。

数据流架构for AI是一个大的技术方向,它比其它架构更适合,我希望更多的同行能跟随这条路。就像冯·诺伊曼提出技术路线,很多公司跟随。从更长时间来看,这不是一件坏事。


04

从L2到L4迈进,需要全域自研

问:我们一直在提全域的软硬一体,包括主动悬架等系统,其他车企也做了零散式的开发。理想说的全域一体,到底有什么核心优势?

谢炎:假设我们停留在L2、L2+,以自动驾驶为例,不做垂直整合也可以,无非是从供应商采买。

车还是人类监督,人类随时准备接管,开得慢一点、效率低一点也没关系,要求不高。

但理想希望它像机器人一样独立地完成任务,那对它的智能要求就非常高了。不仅是脑子,对手脚的掌握、对加速、轮子、纵向横向的控制,要求都很高。

从L2往L3走的时候有很多问题,今天没有供应商可以解决。分开采买加在一起,有大量的冗余,成本又高,延迟又高,出了问题还很难定位。

要解决未知问题、想达到更高标准时,领先企业一定会选择一起做。当然我不排除20年后技术进入平台期时,会拆分出各种供应商。但在技术还没收敛的阶段,要达到这个目标,必须自己整合。

因为一些问题不好解决,我们才要自己出手。比如L3、L4,今天没有人完全做到,特斯拉也没完全做到,这是无人区,解决这些问题,需要投入巨大的资源。

车的内卷就是因为同质化。要摆脱同质化,就是要做别人不好做或做不到的事。如果供应商能做到,那又同质化了。这就是基本逻辑。

问:数据是这个时代最宝贵的资产。随着理想车队规模的跃升,从理想内部来看,数据的边际效应是不是出现了衰减?我们是怎么定义价值数据的?

詹锟:现在大家对于自动驾驶来说,数据的理解逐渐收敛了。

第一,数据的量要足够大,本质是希望收集到更多的Corner Case(长尾场景)。从Normal Case来看,现在的供应商都已经可以采集了,找个几百人的车队就可以去采,Normal Case是足够的。但是采集Corner Case非常难,必须要足够大的车队才行。

基数大,但不是说把所有数据都传回来。现在大家有很多方法在车端做出很好的neural trigger(神经网络触发器),来判断这个场景是难场景还是简单场景,然后把这些关键数据传回来。这也是现在特斯拉很强的重要原因之一。

对我们来说,现在规模已经很大,主要来源于我们很早就做了很好的基建统一。

我们从理想ONE开始,就可以回传全栈所有数据。现在到了Livis具身智能更强了,在360°点云和摄像头数据做了精准的对齐,这些数据给了我们长尾收敛、思考问题的机会。

第二点,质量要高,指行为质量高。现在逐渐收敛到端到端的范式,可以做VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),行为的干净程度、一致性很重要。

这对于使用众包车队的公司来说很有挑战。因为每个人的开车习惯不一样,怎么在众包用户中找到一致性。是我们努力做的事,也看到了很多机会点。

相比于采集车队来说,采集众包行为没那么好控制,但我通过算法可以迅速把好的行为留下来,坏的行为去掉。比如每次过红绿灯时,是否稳定的加速度;遇到丁字路口时,能否稳定减速;每次超车时是否合理变道,这些都需要清晰的判断。

我们通过后面完整的数据来看,就可以知道他的每一个行为是不是合理。这对于我们来说非常重要,也是我们现在投入最大力度做的事情。

数据规模上去,边际效应有没有衰减?首先,只要模型上去了,只要我们能力往100分去够,一定是“对数曲线”,慢慢衰减,不可能线性增长,任何公司做AI都是这样。

但是我们的数据质量,能随着车队规模的增大而增长,其实也在抵抗对数,我们有更多的机会采集到我们想要的数据。虽然越往后面,数据收敛的作用就没那么快,但我们也希望通过规模,把速度加起来。

问:理想是在什么时候开始研发3DViT这个技术路径的?3DViT目前能达到跟激光雷达一样的效果吗?

詹锟:3DViT来自于去年的CVPR的论文VGGT(VGGT: Visual Geometry Grounded Transformer),这证明了2D视觉也能学会完整的3D空间结构,证明了Scaling Law在3D空间的全新可行性。

之前团队一直在往这方面探索和尝试,中间做了很多方案的取舍和权衡。我们看到3D ViT对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果,去年才正式从研究探索阶段转入产品开发阶段。

在这个过程中,我们把它变成一个真实项目,放到最新的马赫VLA里。原先马赫VLA不一定使用3D ViT,但有了会更好。

3D ViT后续还有更大的改进与优化空间,这也是追上FSD V14很重要的一环,中间视觉信息能不能表征清楚,这是非常关键的。

3D ViT是一个纯视觉方案,它不依赖于激光雷达。它基于视觉,把空间建模成带有色彩信息的全彩点云,基于更强的视觉编码器和空间视觉表征,做到更丰富的3D理解。

关于帧率和激光雷达效果,这其实是两个问题。高帧率主要是提高反应速度,因为激光雷达帧率有限,只有10Hz,视觉能做到30Hz甚至更高,我们基于视觉能做到更高的反应速度。

能不能达到激光雷达的效果?我们是有信心的。因为我们最新所有的车都标配了激光雷达,激光雷达对纯视觉方案有非常强的监督和校验作用。

问:两个问题:第一,五年后或者再往后看两代产品,理想汽车车内的算力中心有没有可能全部使用自研的马赫芯片?第二,我们看到提升模型帧率对系统体验有明显改善,什么时候能看到更高帧率的模型上车,是7月、9月还是12月?

谢炎:我们认为,舱驾一体最核心的是AI算力部分,其他部分是不是一体没那么关键。座舱跟AI智驾系统可以完全独立,但AI算力可以集中在一起,这样分配效率会高很多。

所以我们路线图的最终形态是车内一个AI计算中心,所有AI任务都可以到这个计算中心去计算。就像笔记本上跑OpenClaw一样,AI的计算不在笔记本上,而是在Token Provider Server(Token供应服务器)上,车里也类似,有一个Token Server(Token服务器)。

这个Token Server的优势:第一,效率非常高。第二,能做到不同任务互相隔离、互不影响。比如智驾任务的确定性——无论是内存还是带宽,能够保证不被其他任务干扰,这是软件和硬件一起设计才能实现的。只靠芯片提供商做不到这一点,需要软件跟硬件一起配合设计。

我们的优势在于,可以把一些计算单元完全隔离给智驾用,另一部分给其他任务用。如果是通用的SRT(Secure Reliable Transport,安全可靠传输协议)架构,它不能完全做到这一点,因为这些东西藏在硬件里,而硬件并不知道上层应用的语义。

詹锟:LiDAR(激光雷达)我们不是去掉了。但LiDAR能不能作为前融合的主传感器,这需要我们思考。

LiDAR的帧率有物理限制,因为机械结构的原因,至多10到15赫兹。如果想做到更高的输入频率,只能靠视觉。更高的输入频率对细节反应有很大提升,特斯拉的细节反应速度就是这么来的。

所以我们必须拉高上限,基于纯视觉把输入上限拉高。我们正在往这个方向做,大概率会在某一个节点切入到类似的水平。

我们内部有很多版本的纯视觉方案,要以实践结果来证明。特斯拉是36赫兹的输入,输出不一定是36赫兹。所以我们要提高帧率,接下来会先上15赫兹、20赫兹。纯视觉带来更好效果以后,我们就会替换上来。

第二,LiDAR有一个很大的优势,就是对L3和L4场景下的安全兜底。我们会一直往L4方向去努力。毕竟纯视觉输入信息有限,而LiDAR在极端情况下可以帮你解决很多问题,所以LiDAR的作用很重要,我们会通过其他方式保证更强的安全。

基于这样的判断,下半年最重要的两件事:第一,用纯视觉提高帧率,把芯片性能发挥到更大,反应速度大幅提升。第二,LiDAR会承担很重要的数据采集环节,它对L3、L4各种极端场景很有帮助,我们会持续提升安全,安全不能妥协。


05

高技术产品的商业化落地要循序渐进,无法一步到位

问:基座模型怎么从车扩展到其他终端?它的瓶颈是数据、运控,还是模型本身的范式?所以能不能真正统一车和机器人这两种不同的终端形态?

詹锟:我认为这个gap(差距)很大。切换到机器人的导航没问题,但如果切换到操作上,模型不是那么一样。或者说Foundation(基座)只是一个非常基本的,后面一定是千差万别。

车里面包含了Language语言智能,这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。DeepMind Robotics团队有个ER模型(Gemini Robotics-ER),就是来自Gemini的,把语言思考上的能力从通用场景迁移到机器人上。

我们把物理机器人分成三个关键任务。

一是具身交互,我们跟它沟通、交流、思考,让它做任务规划。

二是移动,自动驾驶从A点到B点,无碰撞、安全、高效地到达目的地。

三是操作,狭义的具身,是一个独立任务,是开放性场景,业界很多人都在探索,包括硬件、数据都是不完善的。这三个任务任意的组合,都会形成非常有价值的商业模式与价值形态。

这是我们的想法,我们的车有机会把这三点都涵盖。涵盖以后,我们想长成任何一个物理的具身本体都有非常大的机会。你说我们有没有共同基座?我们肯定有云端的共同基座。但这个基座是不是放在任何任务上就能直接用?我觉得比较难。

但它作为基座,提供海量的数据支持、训练环境,能提供Foundation Model(基座模型)的baseline(基线),帮助你快速做下个任务的收敛,这是很有帮助的。所以这也是我们成立基座模型团队的原因,我们会有基座来支撑各个业务,但每个业务有自己的特点。

问:如果未来同时引入了大量的Agent应用,这套架构能不能很好地应对Agent爆发式的流量?模型的通用性是一方面,带宽和并行能力能不能应对Agent的爆发?

谢炎:您可能想问它的通用性问题。我们芯片第一个重要的业务毫无疑问是自动驾驶,但我们没有做成只能跑一个模型。它的数据流可以跑任何模型算子,不仅可以跑自动驾驶,也可以跑语言模型,昨天我介绍了我们能跑Qwen 35B(通义千问350亿参数模型)。

我们是个端侧芯片。作为端侧芯片,它的服务query(请求)不会很多。如果我们设计一个云端芯片,是同时服务1000个用户。但端侧芯片的要求不一样,它服务的对象往往只有一两个任务,它要求的是更短的延时,而不是服务更多的对象。如果是云端芯片,架构还是数据流,但设计和端侧芯片就不一样了。

问:今年理想新做的3DViT技术,之前的智驾感知是先做BEV(鸟瞰图),先拍图,后面再做OCC(占用网络)立起来,再到3DViT(三维视觉Transformer),更接近于人类的感知。倒着看有点像弯路,为什么会走这个弯路?

詹锟:我认为这不叫技术的弯路。

无论是做模型还是三维空间建模,我们把OCC定义为空间建模,这些思想都来自于上世纪。CNN(卷积神经网络)是80年代的东西,只不过2012年GPU发展时才爆发。LSTM(长短期记忆网络)也是1997的东西,到了2010年才逐渐应用。Transformer也是如此,稠密计算很早就有了,但之前没有爆发。

本质是随着当前的基础设施、硬件、算力统筹升级,不是说有一个想法就能直接用起来。所以技术迭代会一直跟随当前的环境、硬件、任务需要在变。

从自动驾驶来说,2022年特斯拉在发布会上讲BEV方案,方案也不是新的,只是基于它的强大算力,在特征级把场景做融合。由于算力就那么大,不能做很深的稠密高度估计,只能变成单层或者采样很稀疏的BEV。

到了OCC阶段,是把稀疏变密,这是算力或硬件的一次升级带来的东西。

3DViT是什么?可以理解为基于3DGS(三维高斯溅射)或全新稠密三维空间的新的三维表示。从2025年到2026年,CVPR(计算机视觉与模式识别会议)的Best Paper都是这个领域。

去年的论文是剑桥大学做的,基于图像直接投射出三维空间,直接预测三维深度。2026年的CVPR是DeepMind基于传感器把三维空间动静分离。所以我们未来三年内,就是基于这个路径做。

之前认为的栅格化、需要人类表征的东西,变成不用表征。OCC先不定义类别,任何物体和任何元素我都可以投射三维空间,它有外观、RGB、纹理、属性。这样的建模方式需要随着下一代的算力增加才能做到。

它不是绕弯路,而是思想随着条件的成熟才能用起来。

随着大家相信Scaling Law(规模定律),把模型规模和参数规模越提越高,让这些思考发挥越来越大的作用。如果算力不够用,规模不够,想法再好也实现不了效果。

谢炎:高科技技术产品的商业化落地是一步一步的。

特斯拉早期没有Mobileye,就没有今天的FSD。今天来看,会说Mobileye的方法太古老了,为什么它不能一下子做到端到端?因为当时的条件完全不具备。而条件完全不具备时去做,不能完全落地,也不能商业化。

所以先从Mobileye的技术栈开始,再到FSD的第一代,不断完善。它在2021年有很多规则,现在规则越来越少。商业化是一步一步做的,认为有好的想法就应该一步到位,这不太现实。

(作者长期关注蔚小理和智能驾驶的技术与人事动态,欢迎添加微信 ColombaHere 交流讨论。)对话理想谢炎&詹锟:年末追平特斯拉FSD图8

//

近期热门文章



对话理想谢炎&詹锟:年末追平特斯拉FSD图12

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
特斯拉
more
加速变道很顺,一认路就犯傻! 特斯拉 FSD表现糟糕,是导航的锅?
特斯拉上海工厂五月交付破纪录,产线转型人形机器人蓄势待发
2833英里零干预!特斯拉FSD横穿美国
CVPR 2026,英伟达特斯拉Waymo一块听中国公司讲物理AI
特斯拉宣布:监督版FSD正式进入中国
8点1氪:Manus创始人计划融资10亿美元回购公司;“拉勾网”被曝主动申请破产;特斯拉Model S和X正式停产退役
特斯拉FSD入华,何小鹏:欢迎正面对照!
特斯拉FSD真的要进中国了,不过是监督版
满血FSD可能真的快来了!特斯拉9城急招智驾实车测试技师
特斯拉Optimus人形机器人从实验室原型到千万级量产的中国元素深度分析
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号