
-
HBF的容量是HBM 的十倍,但其运行速度却低于 DRAM。
-
GPU通过分层的HBM-HBF存储器来访问更大的数据集。
-
HBF的写入操作受限,因此软件需要专注于读取操作。
AI工作负载的激增给内存系统带来了前所未有的压力,迫使各公司重新思考如何将数据传输至加速器。
HBM一直作为GPU的快速缓存使用,使得AI工具能够高效地读取和处理KV数据。
然而,HBM价格昂贵、速度较快但容量有限,而HBF则具有更大的容量但速度较慢。
HBF 如何补充HBM
HBF的设计使得GPU能够访问更大的数据集,同时限制写入次数,每个模块大约为10万次,这需要软件优先处理读取操作而非写入操作。
HBF 将与HBM邻近的AI加速器一同整合,从而形成一个分级存储架构。
韩国科学技术院的Kim Joungho教授将HBM比作家中用于快速查阅资料的书架,而HBF则像一个内容丰富得多的图书馆,但访问速度较慢。
Kim教授表示:“要让GPU执行AI推理任务,必须从HBM中读取名为KV缓存的可变数据。然后,它会对这些数据进行解析,并逐字输出。我认为它会利用HBF来完成这项任务。”
“HBM 运行速度快,HBF运行速度慢,但其容量大约是前者的 10 倍。尽管HBF对读取次数没有限制,但对写入次数却有限制,大约为10万次。因此,当OpenAI或谷歌编写程序时,他们需要设计其软件,使其侧重于读取操作。”
HBF 预计将在HBM6中首次亮相,届时多个HBM存储堆栈将通过网络相互连接,从而大幅提升带宽和容量。
该概念设想未来的迭代版本(如HBM7)能够成为一座“存储工厂”,使得数据能够直接从HBF进行处理,而无需经过传统的存储网络这一环节。
HBF将多层3D NAND芯片垂直堆叠在一起,类似于HBM对DRAM的堆叠方式,并通过TSV将它们连接起来。
单个HBF单元的存储容量可达512GB,带宽最高可达1.638TBps,远远超过了标准的SSD NVMe PCIe 4.0速度。
SK海力士和闪迪公司已展示出相关图表,其中显示上层的NAND 层通过TSV与基底逻辑芯片相连,从而形成了一个完整的功能堆叠结构。
原型HBF芯片在制造过程中需要格外小心,以避免底层出现变形现象,而增加更多的NAND 层还会进一步增加微凸点连接的复杂性。
三星和闪迪计划在接下来的24个月内将HBF系统集成到英伟达、AMD 和谷歌的AI产品中。
SK 海力士近期将发布一款原型产品,同时各公司还通过一个联盟在推进标准化工作。
在HBM6时代,HBF 的应用预计会加速发展。Kioxia已经成功开发出一款使用PCIe Gen 6 x8 协议、数据传输速率为64Gbps的5TB HBF模块。Kim教授预测,到2038年,HBF市场规模可能会超过HBM市场。