关注“电子工程专辑”加小编微信
现已开放地区群,请发送消息【深圳】【上海】【北京】【成都】【西安】到公众号
模拟AI加速器初创公司EnCharge AI宣布推出其首款产品——EN100 AI加速器,它提供200TOPS(INT8)的算力,专为笔记本电脑、工作站及其他客户端设备而设计。该器件基于EnCharge的电容型模拟存内计算技术,据称可实现40TOPS/W以上的能效。
EnCharge公司首席执行官在接受笔者采访时表示,存内计算对于AI至关重要,因为它是唯一一种能够同时实现高效数学加速和高效数据传输的技术。
“AI是一个双面问题。”Verma表示,“一方面,我们面临大量的运算任务,因此需要高效的数学运算。另一方面,这些运算涉及大量数据,而数据的移动成为主要瓶颈之一。事实证明,存内计算是少数几种能够同时解决这两个问题的架构。”
模拟计算
模拟计算并不是一个新概念,但近年来随着计算密集型AI工作负载的兴起,一些初创公司开始基于类似的概念构建新的架构。通常,乘法和加法的基本运算是在存储器阵列中完成的。每个存储单元存储一个权重,并充当一个可变电阻器,其阻值与对应的权重值成比例。
数据被编码为电压信号,当该电压施加到存储单元时,实际上完成了数据与权重的相乘操作。输出线将电流汇聚在一起,从而以简单的加法形式组合结果。这是一种非常节能的实现乘法和加法的方式,而这两种运算是矩阵乘法的核心组成部分,构成了AI工作负载的主要部分。由于计算发生在已存储权重的存储器内部,所需的数据移动大大减少,从而提升了整体能效。
多年来,其他公司在模拟计算方面取得了一定成果,但也面临不同程度的挑战。例如,Mythic使用闪存单元阵列作为矩阵乘法加速器,但由于需要复杂的校准算法来应对工艺和温度变化,因此会影响精度。也可以采用其他类型的存储器;Tetramem在其存储器阵列中使用了RRAM。D-Matrix则在其方案中采用了改进的SRAM进行模拟乘法,并结合数字加法,以克服全模拟设计中存在的精度和准确度问题。
EnCharge公司首席执行官Naveen Verma(来源:EnCharge)
“虽然模拟技术在能效方面有可能带来数量级级别的提升优势,但问题在于我们无法构建模拟计算芯片——因为它噪声大,而且难以扩展。”Verma表示,“问题在于半导体器件的特性会随着温度、制造工艺等因素发生变化,因此这些器件所产生的电流——当你试图将其累加以实现数据聚合或缩减时——会变得非常嘈杂。”
Verma在普林斯顿大学的实验室提出了一种绕过噪声问题的方法。EnCharge没有使用流经半导体器件的电流,而是改用电容器上的电荷,通过产生电荷并将电容器耦合在一起,以获得累加结果。
“这才是真正关键的部分。”Verma解释道:“这些电容器本质上就是金属导线,在任何代工厂的半导体技术中都能实现。”他所指的是逻辑或存储器设计中通常位于晶体管上方的互连层。另一个附加优势是,利用金属层意味着存储器中的计算部分不会占用任何额外的硅面积。
“非常重要的一点是,它们不会随温度变化,不受任何材料参数的影响,具有完全线性的特性,仅取决于几何结构。”Verma说道,“而在CMOS工艺中,我们恰恰能够很好地控制几何结构。”
他表示,电容器具有非常低的温度系数,即其电容值不会随温度发生显著变化。这是因为与半导体材料不同,后者中电荷的流动会受到原子运动的阻碍——这种阻碍在高温下尤为明显,而介电材料的磁导率则不受温度影响。
Verma还指出,EnCharge的金属层电容器不需要像晶体管那样具备精细的特征分辨率,但CMOS工艺的高精度有助于最大限度地降低噪声。EN100采用16nm工艺,但EnCharge内部的测试芯片已经突破了这一节点,这表明该技术能够随着工艺的进步而持续扩展。
EnCharge的EN100搭载在M.2卡上(来源:EnCharge)
存储单元设计
其他模拟计算方案在存储器阵列两侧通过大量DAC和ADC进行模拟域与数字域之间的转换时,会遭受较高的能量代价。Verma表示,EnCharge基于电容的技术有一个关键区别:其输出为电压信号,而非电流信号。这意味着无需使用跨阻放大器进行电压转换,而可以直接采用在功耗和面积上都更高效的逐次逼近寄存器(SAR)ADC。Verma表示,跨阻放大器的功耗是ADC本身的三到四倍。
“这些ADC的面积约为存储器阵列面积的20%,因此它们在面积上的开销并不大,而在能耗方面则更低,大概只占15%到18%。”他表示,“这正是保留模拟技术优势的关键所在,而在许多情况下,当你开始构建完整系统时,这种优势往往会消失。”
EnCharge使用自主设计的SRAM单元,该单元对标准代工厂提供的SRAM单元基础上进行了轻微修改,使其具备控制电容器的能力。
“在如何构建该单元以保持高密度、如何与电容器结构进行协同设计以维持其基本的固有精度,以及在全尺寸、实用阵列中的实现等方面,我们投入了大量知识产权(IP)研究。”Verma指出。
他表示,归根结底,电容器部分其实是相对简单的部分——真正困难的是让架构的其余部分与加速器一样高效,并开发出一个软件堆栈,这占据了公司过去七八年的时间。
“说实话,能够在模拟计算领域迸发出灵感并实现重大创新固然令人振奋,但真正的挑战在于将架构和软件落实到位。”他说道。
EN100的模拟加速器支持8位和4位精度。对于需要更高精度或浮点运算的层或运算符,芯片上也集成了数字引擎。EnCharge的编译器会将工作负载映射到不同的引擎上执行。
EN100还提供四芯片PCIe卡版本(来源:EnCharge)
能效
虽然许多应用可以实现超过40TOPS/W的能效,但EnCharge已明确将PC上的AI作为其首要市场。
“我们希望聚焦于一个具有巨大潜力的市场机会,在那里我们的价值主张非常集中且至关重要。”Verma表示,“如果你以这个方向为指引(北极星),那么你会发现这个市场正在迅速崛起。我们相信它需要我们,我们也希望能在其中发挥支持作用。”
Verma指出,出于合规性和安全性的考虑,OEM厂商希望能够在用户的PC上本地部署个性化或专用模型。例如,200TOPS的算力可以支持比当前配备Copilot功能的笔记本电脑更强大的模型,后者仅需要40TOPS的加速性能。
“在本地部署意味着要在极其严苛的功耗和空间限制下进行。”Verma表示,“这正是像EnCharge这样强调能效的技术方案能够真正发挥作用的地方,因此这也是我们选择的发展路径。”
Verma表示,目前PC上的AI加速器性能大多在40TOPS左右,而EnCharge的200TOPS标志着客户端系统的一个转折点。
“如果你运行的是10亿到20亿参数的模型,这些模型还算可以,但当你达到50亿、100亿甚至150亿参数时,它们的能力会突然大幅提升。”他说道。“多模态能力变得可实现,推理模型也变得可用。EnCharge的目标就是让这类模型能够在设备端运行。”
EnCharge正在与笔记本电脑和客户端平台的OEM厂商展开合作,这也推动了与ODM厂商的合作关系。Verma解释称,消费类/客户端OEM通常依赖特定的ODM厂商,因为他们的出货量需求要求专门的设计来应对复杂的开发流程、验证和认证。他表示,公司目前已与多家独立软件供应商(ISV)展开测试合作,但未来这些合作关系将进入一个新的阶段。
EnCharge已在EN100上部署并运行了一系列模型,包括卷积神经网络(CNN)、语言模型和视觉Transformer,以及编码器/解码器模型。这些模型的优先级主要由合作伙伴的需求决定,Verma补充道。
EN100将以单芯片M.2卡形式推出,配备32GB LPDDR内存,功耗为8.25W。此外还有一款四芯片、半高半长的PCIe卡版本,可在40W功耗范围内提供高达1POPS(INT8)的算力,并搭载128GB LPDDR内存。
战略客户将在今年晚些时候收到首批样品。
作者:Sally Ward-Foxton
THE END
2025-09-01

2025-08-30

2025-08-29

2025-08-29

2025-08-28

