随着需求的增长,快速生成LLM令牌这一技术正受到广泛关注。D-Matrix 公司的副总Sree Ganesan表示,该公司正凭借市场对低延迟令牌的需求,以及数据中心硬件在推理分解和异构性方面的趋势,来销售其AI加速器以及新型专门设计的低延迟网络接口卡。
LLM的推理工作负载随着诸如推理和思维链等技术的兴起以及自主式AI的发展而不断增加。这意味着模型之间将能够相互交流,而无需受限于人类的阅读速度。即使是小型代理(那些使用参数少于10 亿的模型——SLM)也是如此,这些趋势意味着将需要更多的令牌,并且延迟将变得更加关键,从而对内存带宽造成更大的压力。
Ganesan表示:“即便只是一个复合系统中的少数几个代理在协同工作,我们也开始看到越来越多的 SLM技术发挥作用。这又让我们回到了存储墙这个话题——在计算方面能够保持良好的发展态势,但在带宽方面却不行。我们确实需要在带宽方面取得突破,因为差距正在不断扩大——所以我们认为这种存储-计算的融合方式将会持续存在。”
D-Matrix 公司的Corsair推理加速器采用了专有的内存计算方案——乘法运算是在其定制的SRAM存储单元中进行的,同时结合了数字加法树。
然而,Ganesan表示,与DRAM相比,SRAM的性能提升能力并不那么出色,尤其是在先进的工艺节点上。
她说:“我们之前采用的是二维的内存计算方式,那时我们看到了其带来的巨大优势,比如能实现每秒数百太字节的带宽。而现在,我们需要突破第二个障碍,也就是内存容量的限制。解决的办法就是走垂直化路线。”

D-Matrix 正在研发一种由多块定制DRAM块组成的3D组合结构,以增强其Corsair内存计算芯片组件。未来D-Matrix 的芯片仍将同时具备高性能内存(即经过修改的用于计算的SRAM)和容量内存(非内存中的DRAM,用于存储数据),但容量内存将扩展至三维空间。
采用堆叠式DRAM意味着必须设计一种让芯片层间进行垂直通信的方式——逻辑/SRAM芯片位于堆叠式DRAM之上,而DRAM 则直接放置在中介板上。
“我们最终实现的效果是显著提升了存储容量,我们并未牺牲任何存储带宽,因为整个表面区域都可用于数据传输;我们在存储带宽方面所拥有的优势在增加容量的同时依然存在。”
3D 堆叠技术带来了复杂的良率和热稳定性问题,但通过使用小芯片,并将每比特的皮焦耳值降至最低以限制热效应,这些风险便得以降低,Ganesan说道。
D-Matrix 公司的3D 自定义DRAM 测试芯片Pavehawk已在公司实验室中投入运行。该公司的下一代产品Raptor将采用这种3D 堆叠技术,并将比采用昂贵的HBM4 技术实现10 倍更高的内存带宽和10 倍更高的能效。
Ganesan表示:“我们对将这一技术应用到下一代产品中充满十足的信心。这家公司的基因在于不断开发能够突破现有界限的技术,同时在将其转化为商业产品之前还会对其进行验证。”

快速NIC
D-Matrix 还一直在致力于横向扩展方面的研究工作。
“无论我们在分布式推理方面采取何种措施,其目的都在于让Corsair能够大放异彩。”
如今,Corsair 卡可以通过PCIe 服务器进行连接,并配备用于网络接口卡的备用插槽,从而实现横向扩展。D-Matrix 已开发出一款PCIe Gen5 网络接口芯片,目前处于量产阶段,其设计旨在突破另一个瓶颈:I/O。这款芯片名为Jetstream,能够处理400 Gbps(延迟2us)的数据传输,并且其热设计功率为150瓦。
Ganesan表示:“我们发现,客户不仅需要使用容量存储功能,还需要使用性能存储功能,即超低延迟的批量推理功能。”
在一台由8 块卡组成的Corsair服务器节点中,其性能内存(单独使用)能够存储一个8 到10 字节(8 位)的参数模型,但只要芯片的通信速度足够快,单个机架就可以配置用于存储100 字节(8 位)参数模型的性能内存,以实现超低延迟。Ganesan表示,PCIe 和以太网无法提供所需的传输速度。
Jetstream 支持设备主动发起通信(无需通过主机进行通信),从而确保通信速度能够与计算速度相匹配。
“这一切都是在后台进行的异步通信。这种设计将数据平面和控制平面分离开来,使我们能够实现极高的处理速度,跟上计算能力的发展,并确保与行业标准的兼容性。”
D-Matrix 选取了PCIe 协议栈的部分内容,针对Corsair的通信语义对其进行了优化,并加入了部分以太网协议栈的内容。仅选取每个协议栈的一部分有助于最大程度地减少软件开销。Jetstream 卡插入到Corsair服务器中,原本该位置应放置一款工业级PCIe 网卡,然后与顶部机架交换机连接,以构建一个多机架集群。Ganesan表示,根据公司对市场预期的需求,一个理想的集群规模可能在500 到1000 张Corsair卡之间。

因此,D-Matrix 的发展路线图现在增加了I/O这一维度。Jetstream 与Corsair 一起推进了当前这一代产品的开发。而该公司的第二代内存计算平台Raptor则需要采用不同的开发方法。
Ganesan表示:“Jetstream是起点,通过这条快速路径,我们为Corsair解决了相关问题。展望未来,我们希望打造符合行业标准的电气I/O 芯片单元……我们有机会将这些单元整合到芯片单元中,并将其应用于Raptor系列芯片中。”
该公司的第三代内存计算架构(被命名为Lightning)将采用某种形式的光学I/O技术。
硬件异构性
当前的推理硬件发展趋势包括将LLM的推理工作负载分为两个阶段——预填充和解码——这两个阶段对计算和内存的需求各不相同,并且分别在不同的硬件上运行。
“我们的核心假设是,世界将会变得多元化。”
D-Matrix 在预填充和解码过程中使用的是相同的硬件,但针对这两种工作负载,可以对相同的硬件进行不同的配置。
“如果预填充阶段的计算需求非常大,那么你可以直接使用 DDR 内存(我们有大量的这种内存),用我们所说的容量内存部分来完成计算密集型的预填充工作,然后再将其传输到性能内存中使用。”
Ganesan表示,异构化将不再局限于预填充和解码阶段,而是会延伸到更广泛的阶段。她指出,在这两个阶段之外,还有部分工作负载对延迟极其敏感,并且需要较小的批量处理规模。她补充道,客户对Corsair在这部分工作负载中的产品表现出了浓厚的兴趣。
“异构性将会越来越多地出现,这一点我们已经有所察觉。我们早就说过这一点——长期以来一直如此——因此,我们可以推断出,这种异构性将会使各种情况变得越来越复杂多样。”
异构性还意味着可以同时安装D-Matrix Corsair 卡和英伟达GPU,以便根据需要将工作负载中对延迟要求较高的部分从GPU 上分离出来。
Ganesan表示,D-Matrix 当前的客户群体主要来自超大规模企业和新型云服务提供商,目前这些企业中有不少正在进行Corsair 产品的测试并已投入使用。
原文链接: