比GPU快100倍!3D存算一体芯片小试牛刀

电子发烧友网 2025-09-18 07:00
电子发烧友网综合报道,前不久,在芯片设计盛会 Hot Chips 上,d-Matrix 公司再度展示了其 3D 堆叠数字内存计算(3DIMC)颠覆性技术及相关芯片,重新定义 AI 推理的效率标准。

随着大语言模型参数规模突破万亿级,推理环节的 “内存墙” 问题日益凸显 —— 计算性能每两年增长三倍,而内存带宽增速仅为 1.6 倍,昂贵的处理器不得不闲置等待数据传输。在 AI 推理运算中,数据传输始终是制约性能的关键瓶颈。传统解决方案主要分为三类:第一类通过采样和流水线减少数据量,却以牺牲准确性为代价;第二类在处理器附近设置专用 AI 引擎,如英伟达、苹果等企业采用的方案,但存在能耗高、效率低的缺陷;而 d-Matrix 采用的第三类方案,通过将计算模块迁移至内存附近,大幅降低数据传输延迟与能耗。

d-Matrix 的创新核心在于数字存算一体(DIMC)技术。与传统计算架构不同,DIMC 将存储与计算功能集成于同一芯片,直接在内存中执行计算操作,无需在 CPU 与内存之间频繁传输数据。这一突破性设计,有效解决了 AI 推理领域长期存在的数据传输瓶颈问题。d-Matrix 联合创始人兼 CTO 苏迪普・博哈(Sudeep Bhoja)曾在博客中尖锐指出:“当模型参数超过 1000 亿时,数据搬运的能耗已占推理总能耗的 70% 以上,这也是为何单纯堆叠 GPU 无法解决延迟问题的核心原因。”

基于 3DIMC 技术,d-Matrix 研发出 Corsair 芯片。该芯片凭借 DIMC 技术实现性能突破,内存带宽高达 150TB/s。这一数据的提升幅度可通过对比 GPU 主流技术 HBM(高带宽内存)直观体现:作为 GPU 领域的高速传输方案,HBM1 最早于 2014 年由 AMD 与 SK 海力士联合推出(作为 GDDR 的竞品),采用 4 层 die 堆叠,带宽为 128GB/s;HBM2 于 2016 年发布、2018 年正式量产,初期为 4 层 DRAM die,后期升级为 8 层 die,带宽提升至 256GB/s;HBM2E 于 2018 年发布、2020 年推出,传输速度达 3.6Gbps;HBM3 于 2020 年发布、2022 年量产,传输速度提升至 6.4Gbps;其升级版本 HBM3E 的引脚速率达 9.2Gb/s,内存带宽为 1.2TB/s。从带宽维度对比,Corsair 芯片的 150TB/s 远超 HBM3E 的 1.2TB/s,比当前 GPU 领域最先进的 HBM 方案快 100 倍以上。

在硬件规格方面,Corsair 采用行业标准的 PCIe Gen5 全高全长卡形态,由多个 DIMC 计算核心驱动,具备 2400 TFLOP(8 位精度)的峰值计算能力,配备 2GB 集成高性能内存与最高 256GB 片外扩展内存,兼顾强大的计算性能与数据存储能力。

若采用双卡配置,核心参数将实现翻倍:硅片总面积达 6400 平方毫米,集成超 2500 亿个晶体管,16 个 Chiplet(小芯片)实现全连接,在 MXINT4 格式下算力高达 19.2 PFLOPs,高性能内存扩容至 4GB,带宽进一步提升至 300TB/s。

d-Matrix 专注于 AI 推理阶段 —— 即模型训练完成后,高效处理海量用户请求的环节。该芯片尤其适用于高并发场景,如在线客服、视频生成、实时交互式服务等。在视频生成应用中,用户反馈显示内容生成速度大幅提升,画面细节更细腻;在聊天机器人场景中,响应延迟显著降低,用户交互体验更流畅。

Chiplet 技术的成熟为 3DIMC 架构提供了工程落地基础。Corsair 采用高度模块化的 Chiplet 设计,每个 Chiplet 内部划分为 4 个计算四元组,内置 RISC-V 调度引擎管理任务流转。其 Die-to-Die(D2D)互连延迟低至 115ns,带宽达 1TB/s,使多 Chiplet 可实现 “类单芯片” 协同工作。这种设计不仅提升芯片良率,更关键的是实现灵活扩展 —— 通过被动桥接技术,可将两张 Corsair 卡组成 16 个 Chiplet 的全对全互连网络,为分布式推理搭建基础。

在单服务器环境下,Corsair 运行 Llama3 8B 模型时,每秒可处理 60000 个 tokens,单个 token 的延迟仅 1 毫秒。

d-Matrix 的崛起并非偶然,而是 AI 硬件架构 “范式转移” 的必然结果。当模型规模与推理需求呈指数级增长,传统 GPU 的通用计算架构逐渐暴露效率短板。尽管英伟达凭借 CUDA 生态构建的技术壁垒仍较坚固,但在推理这一细分领域,专用架构的优势日益凸显 ——Corsair 不仅理论内存带宽比 GPU 提升 100 倍以上,输出单个 token 的速度较英伟达 H100 快 20 倍,且运行成本显著降低。这种性能与成本的双重优势,足以促使云服务商重新评估硬件采购策略。

资讯配图

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。


更多热点文章阅读


点击关注 星标我们



将我们设为星标,不错过每一次更新!
资讯配图

资讯配图喜欢就奖励一个“在看”吧!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU 芯片
more
刚刚,英伟达发布全新GPU!
英伟达新GPU,超长上下文/视频生成专用
【AI】全流程国产GPU,上下文提速100倍!中国科学院发布「线性复杂度」类脑大模型
【半导体】AMD的GPU,野心暴露
全流程国产GPU,上下文提速100倍!中国科学院发布「线性复杂度」类脑大模型
【半导体】英伟达GPU,市占94%
云大厂半年复盘:GPU业绩暴增、国内云攻守各异、外资云持续调整
刚刚,北京GPU龙头回应一切!AI智算收入暴涨229%,字节腾讯都是股东,最早2027年盈利
“伏羲”GPU流片成功!
AMD RDNA4 GPU 架构,详细解读!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号