英伟达、AMD 和谷歌AI芯片或将用HBF！

AI工作负载的激增给内存系统带来了前所未有的压力，迫使各公司重新思考如何将数据传输至加速器。

HBM一直作为GPU的快速缓存使用，使得AI工具能够高效地读取和处理KV数据。

然而，HBM价格昂贵、速度较快但容量有限，而HBF则具有更大的容量但速度较慢。

HBF 如何补充HBM

HBF的设计使得GPU能够访问更大的数据集，同时限制写入次数，每个模块大约为10万次，这需要软件优先处理读取操作而非写入操作。

HBF 将与HBM邻近的AI加速器一同整合，从而形成一个分级存储架构。

韩国科学技术院的Kim Joungho教授将HBM比作家中用于快速查阅资料的书架，而HBF则像一个内容丰富得多的图书馆，但访问速度较慢。

Kim教授表示：“要让GPU执行AI推理任务，必须从HBM中读取名为KV缓存的可变数据。然后，它会对这些数据进行解析，并逐字输出。我认为它会利用HBF来完成这项任务。”

“HBM 运行速度快，HBF运行速度慢，但其容量大约是前者的 10 倍。尽管HBF对读取次数没有限制，但对写入次数却有限制，大约为10万次。因此，当OpenAI或谷歌编写程序时，他们需要设计其软件，使其侧重于读取操作。”

HBF 预计将在HBM6中首次亮相，届时多个HBM存储堆栈将通过网络相互连接，从而大幅提升带宽和容量。

该概念设想未来的迭代版本（如HBM7）能够成为一座“存储工厂”，使得数据能够直接从HBF进行处理，而无需经过传统的存储网络这一环节。

HBF将多层3D NAND芯片垂直堆叠在一起，类似于HBM对DRAM的堆叠方式，并通过TSV将它们连接起来。

单个HBF单元的存储容量可达512GB，带宽最高可达1.638TBps，远远超过了标准的SSD NVMe PCIe 4.0速度。

SK海力士和闪迪公司已展示出相关图表，其中显示上层的NAND 层通过TSV与基底逻辑芯片相连，从而形成了一个完整的功能堆叠结构。

原型HBF芯片在制造过程中需要格外小心，以避免底层出现变形现象，而增加更多的NAND 层还会进一步增加微凸点连接的复杂性。

三星和闪迪计划在接下来的24个月内将HBF系统集成到英伟达、AMD 和谷歌的AI产品中。

SK 海力士近期将发布一款原型产品，同时各公司还通过一个联盟在推进标准化工作。

在HBM6时代，HBF 的应用预计会加速发展。Kioxia已经成功开发出一款使用PCIe Gen 6 x8 协议、数据传输速率为64Gbps的5TB HBF模块。Kim教授预测，到2038年，HBF市场规模可能会超过HBM市场。