爱芯元智刘建伟：原生AI芯片怎么做？两大要诀拆解丨GACS 2025

爱芯元智刘建伟：原生AI芯片怎么做？两大要诀拆解丨GACS 2025图1

把算力做到更具智价比，让AI触手可及。

编辑 | 全球AI芯片峰会

9月17日，由智一科技旗下智猩猩联合芯东西举办的2025全球AI芯片峰会（GACS 2025）在上海举行，在峰会大模型AI芯片专题论坛上，爱芯元智联合创始人、副总裁刘建伟以《以高智价比AI芯片重构“云-边-端”算力格局》为主题发表演讲。

爱芯元智联合创始⼈、副总裁刘建伟分享道，过去端侧AI芯片主要跑传统CNN模型，场景明确，大模型的兴起则提升了AI上限，应用场景更广泛，有望引发成本驱动型生产力革命。

在他看来，当AI程序规模足够大时，现有运行架构不是最高效的，值得重新设计适合跑AI程序的原生处理器。端侧和边侧长期受成本、功耗刚性约束，对高能效比AI处理器需求迫切。这驱使爱芯元智选择从端侧和边缘侧入手做AI基建。

设计原生AI处理器，需关注算子指令集和数据流DSA架构，两者相辅相成。采用可编程数据流微架构可提升能效比。异构多核处理器要保证由硬件来调度，以降低客户开发与使用成本。

爱芯元智推出的原生AI处理器以极致Token/$效益、显著能效优势，支持智能任务高效运行，为客户提供符合经济原则的算力基建。该AI处理器已完成高、中、低的完整算力布局，并已在多个领域实现规模化量产，能效比传统GPGPU提升了一个数量级，适用于加速以文搜图、通用检测、以图生文、AI Agent等应用。

同时，爱芯元智已打造了从工具链到芯片的完整软硬件体系，与合作伙伴一起推动构建边缘智能共同体。

以下为刘建伟的演讲实录：

大家好，我是来自爱芯元智的刘建伟，今天给大家分享一下我们这几年做算力芯片的一些体会。

今天的主题是以高智价比的AI芯片来重构云边端的算力格局，题目里包含云，但爱芯元智还是专注在边和端，我们重点讲一下端侧和边缘侧芯片。

01.

做AI算力芯片六年，

锚定成本驱动的生产力革命

首先介绍爱芯元智是做什么的，以及我们的定位。爱芯元智做边端AI算力芯片，提供算力，某种程度上就是基建。最终要把这样一颗算力芯片用在端侧和边缘，一定要深入到客户场景或千家万户，在具体场景里面去解决客户或家庭具体的问题。

在这种情况下，爱芯元智就是最下面的底座。这个倒三角，一方面表明爱芯元智处于整个产业链的最下面，同时也表明产业的产值越往上越大，需要的生态伙伴越大。

爱芯元智提供的芯片之上，首先有生态合作伙伴，包括基于芯片来做一些具体的硬件、板卡、计算盒、一体机等等。

再往上可能是由产业或算法的合作伙伴，能够把基于我们芯片、硬件做成具体有功能的产品，最终还有各式各样的代理或渠道能够把它落到千家万户、具体场景里。

最终希望能够基于爱芯元智的芯片底座，或是算力基建底座，构建一个边缘和端侧的智能共同体，把我们所有AI相关的东西落在具体场景里。

如何看待AI的这件事？爱芯元智做AI算力芯片，已经做了6年。

可能今年或去年之前，端侧AI芯片跑的模型更多的是传统CNN相关。CNN模型本身由于天花板比较低，所以落地场景相对明确，比如刷脸、智慧交通、安防等等。

但是大模型的兴起能够把AI能力的上限拉得非常高，能把很多场景中需要更加智能的东西用大模型的方式来提供。

在这种情况下，最终AI表现就是一个稳定可靠的智能基建，会像水和电一样这么普遍。最终，在各行各业里面落地时，就像今天手机上的各个App，一定是能够通过大模型把这样一个算力基建变成一个智能基建。

为什么我们会说这可能是一个成本驱动的生产力革命呢？打一个简单的比方，大模型在端侧和边缘侧，如果落地，某种程度上就相当于把一个人类专家装到了一个盒子里。

比如今天大家讲智能驾驶，可能希望的目标是车上的智能驾驶能够像一个人类老司机一样能够安全，舒适地把我从A点送到B点。

比如在厂房里，我们希望有一个像老专家一样的能够监测产线的的工作、生产情况。

比如在农业中，有各种农业的机器，我希望有一个老专家放进去，他能够很清晰的分辨出我这个地里面哪些是杂草，从而更精准地除草，或者在丰收时，采摘机器能够很清晰地分辨出果子的成熟度、品级。

这个盒子其实就变成了一个标准制造业的商品。大家都知道，国内制造业是非常先进的。一旦这个东西变成了一个制造业，它一定会规模化、低成本地生产产出，可以应用到千行百业，大幅提高各行各业的生产效率。

从这个角度，我们认为AI就是这样一个基建，最终会引发一场成本驱动型的生产力革命。

我个人对这件事情是非常乐观的，我相信可能五到十年内，我们生活中用到的各式各样的东西都会变得极其便宜，或者是这种可获得性会变得非常强。

02.

从端边入手做AI基建，

打造高能效比AI处理器

AI的应用会这么广，AI的应用潜力这么大，那么我们如何来加速AI？或者AI基建该如何来做？

我们的观点是，正是因为AI应用越来越广，所以我们跑AI程序所需要的硬件基础，一定值得我们重新做一个最适合跑AI程序的原生AI处理器。

我们可以从历史的发展中获得一些启发。比如从CPU到GPU，最开始图形图像类程序可以在CPU上跑，但为什么会出现GPU？就是因为图形图像这类程序有自身的一些特点，举例来讲，相对于原来在CPU上跑的控制程序，计算比例会变得非常高。

这时你会发现，用CPU来跑图形图像类的程序，不是最经济的，但是图形图像这类程序的规模又足够大时，我们就值得为图形图像类的程序设计一个原生的、最高效的处理器。GPU就是这么来的。

同样，今天大家跑AI程序，在云侧用的都是GPU或GPGPU架构，在端侧和边缘侧可能也是有不同的，但我们可以从历史中得到相似的启发，就是说当AI程序品类足够大时，GPU不是最高效的运行方式，可以做出一些改变，我们可以从头设计一颗新的处理器。

这也是为什么爱芯元智选择从端侧和边缘侧入手来做AI基建。

因为在云侧，大家可能对成本的要求一开始相对不是那么特别重视，比如云侧以训练为主，训练逻辑一定是能不能把模型训出来，这是第一要义。当然，今天云侧推理业务也越来越重，大家关注的是100万个token能卖多少钱？这时已经开始关注成本。

但是在端侧和边缘侧，从几年前我们要把AI或智能落地时，成本的约束，它就是刚性的功耗约束。所以在端侧和边缘侧，我们做了一个能效比最高AI处理器，它是有很强的商业驱动的。

03.

原生AI处理器，怎么做？

原生AI处理器，我们怎么来做呢？

首先，我们来看AI计算程序，我们AI的程序都可以拿这样一个数据流或计算图来表示。我们把各个网络拼起来，都可以用这样一个抽象的计算图来表示。

在这张计算图里可以看到，基本运算单元就可以抽象为算子，比如矩阵乘法、各种激活函数、向量reduce操作等，这些都可以当成最基本的算子，算子所处理的输入输出就是这样一个高维的tensor。

这样我们就可以把算子作为处理器的指令集来看待。这个指令集的输入输出就是tensor。一个很直观的感受是，tensor的维度比图形图像程序里的矩阵维度高很多，它的维度可能是几千乘几千乘几千，这要求我们设计处理器时一定要把tensor的计算的能耗占比提上去，而尽量降低数据搬运的能耗。

我们来看英伟达GPU里为什么会不断加入tensor core？tensor core的计算维度会不断变大，本质原因都是如果要跑AI，我们就要把程序运行时的能量消耗放在正确的地方，这个正确的地方就是计算，而不是数据搬运。

我们如何评价这样一个处理器？

在云侧，大家目前评价的方式是每百万个token，我尽量卖，那就是成本要降下来。换算过来，就是同样的钱，我要买到更多的性能、更多的token。

比如对于AI视频处理，每秒钟或是每花一块钱能处理多少帧？这是客户最关心的，因为它与效果相关的，至于中间提到的过往大家看到的一些中间的数字，说有多少token、我每瓦有多少T，这些其实都是一些中间的评估，跟最后还是有一段距离。

当然这个成本里面也包括两块：

一块是显性的成本，比如说我搭基建时，买硬件、买算力基建，花了多少钱。

还有一些隐性成本，就是硬件买回来后，把它用起来，要投入多少的研发人力，这个研发人力牵扯到整个软件栈或工具链做的好不好用，要开发多久才能把这个应用跑起来，才能把性能跑得很好。

另外最关键的是能效比是什么样，能不能把能源消耗、电费降下来。

最终，我们要设计这样一个AI处理器，第一点就是算子指令集，另一点是数据流DSA微架构，这两点是相辅相成的。也就是说，只有能够抽象出算子的指令集，才能满足用户对于跑AI程序的灵活性。

可以看到，今天AI算法进步还是比较快的。如果把它分拆来看，指令是相对稳定的，但是模型结构会发生变化，如果和CPU对比的话，就相当于，程序结构会发生变化，但指令集是相对稳定的。

也就是说，我们抽象出算子指令集，是为了保证对AI推理程序支持的灵活性，或者叫快速部署。

第二点是，只有把指令集从传统处理器的微指令拉升到了算子这样一个相对宏观的指令时，在算子指令集之下，我们才能够采用这种可编程数据流微架构来把能效比做得很好。

举例来讲，比如跑一个Transformer的模型，用我们的这样一个处理器去跑，和用这个英伟达GPGPU架构来跑，在能效比方面，我们可以有一个数量级的提升。

我们是这样一个异构多核的处理器，不同的核来处理不同的计算单元，也有专门数据搬运的，就像SDMA，用来做数据搬运，为了保证数据搬运和计算能够一步做并行。

我们从一开始设计时，原生AI处理器要求就是这样。我们应该一步从最开始出发，而不是在原有的体系里修修补补。

另外，还有一点是要能够保证异构多核的调度是由硬件来做的。也就是说，当我一个完整的网络或者几个网络拼起来的一个数据计算图，这样一个业务线或是业务流，只要能够编译到我的处理器上，它们之间就是完整的程序，是不需要CPU来参与的。所以各个核之间的配合，数据之间的流动或依赖性完全是由硬件调度器来完成的，这样能大幅度降低将来客户使用或开发的成本。

软件方面，我们会有完整的工具链，从最底层runtime还有提供给客户的可以观测调试、可以性能调优的工具，包括我们的DSA，也就是指令集。

我们也会把它开源出来。网上有我们自己写的开源出来的，也有我们合作伙伴建立的、面向各行各业或具体应用来写的各式各样加速库，比如面向汽车、音频，甚至是面向具体应用的demo。

我们会在整个软件栈上和开源世界的像PyTorch、跑大模型的SGlang/vLLM的框架去完成对接，这样客户拿到基于我们芯片做的东西后，拿到的是一套完整的解决方案，如果自己有能力，也可以从我们整套解决方案中的某一层来切进来，去做自己的私有化部署和使用。

04.

结语：构建边缘智能共同体，

加速AI普惠

从硬件层丰富性来讲，爱芯元智提供芯片，但基于爱芯元智的芯片，会有板卡、边缘盒子、服务器等来自合作伙伴的产品。