比GPU快100倍！3D存算一体芯片小试牛刀

电子发烧友网综合报道，前不久，在芯片设计盛会 Hot Chips 上，d-Matrix 公司再度展示了其 3D 堆叠数字内存计算（3DIMC）颠覆性技术及相关芯片，重新定义 AI 推理的效率标准。

随着大语言模型参数规模突破万亿级，推理环节的 “内存墙” 问题日益凸显 —— 计算性能每两年增长三倍，而内存带宽增速仅为 1.6 倍，昂贵的处理器不得不闲置等待数据传输。在 AI 推理运算中，数据传输始终是制约性能的关键瓶颈。传统解决方案主要分为三类：第一类通过采样和流水线减少数据量，却以牺牲准确性为代价；第二类在处理器附近设置专用 AI 引擎，如英伟达、苹果等企业采用的方案，但存在能耗高、效率低的缺陷；而 d-Matrix 采用的第三类方案，通过将计算模块迁移至内存附近，大幅降低数据传输延迟与能耗。

d-Matrix 的创新核心在于数字存算一体（DIMC）技术。与传统计算架构不同，DIMC 将存储与计算功能集成于同一芯片，直接在内存中执行计算操作，无需在 CPU 与内存之间频繁传输数据。这一突破性设计，有效解决了 AI 推理领域长期存在的数据传输瓶颈问题。d-Matrix 联合创始人兼 CTO 苏迪普・博哈（Sudeep Bhoja）曾在博客中尖锐指出：“当模型参数超过 1000 亿时，数据搬运的能耗已占推理总能耗的 70% 以上，这也是为何单纯堆叠 GPU 无法解决延迟问题的核心原因。”

基于 3DIMC 技术，d-Matrix 研发出 Corsair 芯片。该芯片凭借 DIMC 技术实现性能突破，内存带宽高达 150TB/s。这一数据的提升幅度可通过对比 GPU 主流技术 HBM（高带宽内存）直观体现：作为 GPU 领域的高速传输方案，HBM1 最早于 2014 年由 AMD 与 SK 海力士联合推出（作为 GDDR 的竞品），采用 4 层 die 堆叠，带宽为 128GB/s；HBM2 于 2016 年发布、2018 年正式量产，初期为 4 层 DRAM die，后期升级为 8 层 die，带宽提升至 256GB/s；HBM2E 于 2018 年发布、2020 年推出，传输速度达 3.6Gbps；HBM3 于 2020 年发布、2022 年量产，传输速度提升至 6.4Gbps；其升级版本 HBM3E 的引脚速率达 9.2Gb/s，内存带宽为 1.2TB/s。从带宽维度对比，Corsair 芯片的 150TB/s 远超 HBM3E 的 1.2TB/s，比当前 GPU 领域最先进的 HBM 方案快 100 倍以上。

在硬件规格方面，Corsair 采用行业标准的 PCIe Gen5 全高全长卡形态，由多个 DIMC 计算核心驱动，具备 2400 TFLOP（8 位精度）的峰值计算能力，配备 2GB 集成高性能内存与最高 256GB 片外扩展内存，兼顾强大的计算性能与数据存储能力。

若采用双卡配置，核心参数将实现翻倍：硅片总面积达 6400 平方毫米，集成超 2500 亿个晶体管，16 个 Chiplet（小芯片）实现全连接，在 MXINT4 格式下算力高达 19.2 PFLOPs，高性能内存扩容至 4GB，带宽进一步提升至 300TB/s。

d-Matrix 专注于 AI 推理阶段 —— 即模型训练完成后，高效处理海量用户请求的环节。该芯片尤其适用于高并发场景，如在线客服、视频生成、实时交互式服务等。在视频生成应用中，用户反馈显示内容生成速度大幅提升，画面细节更细腻；在聊天机器人场景中，响应延迟显著降低，用户交互体验更流畅。

Chiplet 技术的成熟为 3DIMC 架构提供了工程落地基础。Corsair 采用高度模块化的 Chiplet 设计，每个 Chiplet 内部划分为 4 个计算四元组，内置 RISC-V 调度引擎管理任务流转。其 Die-to-Die（D2D）互连延迟低至 115ns，带宽达 1TB/s，使多 Chiplet 可实现 “类单芯片” 协同工作。这种设计不仅提升芯片良率，更关键的是实现灵活扩展 —— 通过被动桥接技术，可将两张 Corsair 卡组成 16 个 Chiplet 的全对全互连网络，为分布式推理搭建基础。

在单服务器环境下，Corsair 运行 Llama3 8B 模型时，每秒可处理 60000 个 tokens，单个 token 的延迟仅 1 毫秒。

d-Matrix 的崛起并非偶然，而是 AI 硬件架构 “范式转移” 的必然结果。当模型规模与推理需求呈指数级增长，传统 GPU 的通用计算架构逐渐暴露效率短板。尽管英伟达凭借 CUDA 生态构建的技术壁垒仍较坚固，但在推理这一细分领域，专用架构的优势日益凸显 ——Corsair 不仅理论内存带宽比 GPU 提升 100 倍以上，输出单个 token 的速度较英伟达 H100 快 20 倍，且运行成本显著降低。这种性能与成本的双重优势，足以促使云服务商重新评估硬件采购策略。

资讯配图