AI推理中出现的新瓶颈
随着LLM的规模不断扩大,AI系统的优化重点正在逐渐发生转变。尽管训练仍需要大量资源,但推理正日益成为主要的工作负载——尤其是在交互式的AI环境中,其中模型持续进行交互、保持对话情境,并在多个阶段和多个主体之间生成输出。
在这些情况下,推理不再是一个简单的操作。它在很大程度上依赖于维护和重复使用存储在KV缓存中的上下文信息。随着模型规模的扩大以及推理工作流程扩展到分布式、多节点系统中,KV 缓存必须在单个请求或设备之外持续存在。这给内存容量和数据局部性带来了越来越大的压力,从而开始限制整个系统的可扩展性。
因此,AI推理流程中出现了新的瓶颈。如何高效地保存、访问和重复使用KV缓存——同时又不使系统内存超载或影响响应速度——已成为一个系统层面的难题。解决这一难题越来越需要重新思考在推理流程中如何组织内存、存储和计算。
为何KV 缓存卸载至关重要
近期的发展趋势表明,AI基础设施的架构发生了明显的变化。英伟达在Vera Rubin平台中引入了CMX™(上下文内存扩展)技术,同时采用了三星的PM1753 企业级SSD,这表明将内存容量扩展到超出GPU 所连接限制的范围已不再只是概念上的设想,而是已经在系统层面得到了实际应用。
随着基于KV 缓存的推理状态规模不断扩大,将所有数据都存储在GPU 或系统内存中已变得越来越不切实际。这促使人们需要更灵活的内存层次结构,以便能够在不同会话、代理和设备之间实现数据的重复利用。
KV 缓存卸载技术通过在推理内存栈中引入一个基于存储的层来解决这一问题。通过有选择地将缓存数据移动到主内存之外,它减轻了资源的负担,同时在推理步骤之间保持了高效的重复利用。
这一点在读取密集型工作负载中尤为重要,这类工作负载会反复访问大量上下文数据——在此情况下,存储性能直接关系到整个推理过程的效率。

了解工作量的特点
为了更深入地了解这些架构变革在实际系统中的具体表现,三星在具有代表性的AI推理环境中使用PM1753 进行了系统层面的评估。其目的是观察推理工作负载与存储之间的相互作用,即当KV缓存数据被卸载并跨多个GPU 重复使用时的情况。
一个明确的观察结果是,KV 缓存卸载是由大量数据块的移动所驱动的,而非频繁的小型I/O 操作。随着推理会话在不同GPU 之间转移,先前生成的上下文会以较大的块形式进行转移和复用。这使得存储的作用转向支持高容量的数据传输,而非处理碎片化的访问模式。
总体而言,KV 缓存卸载工作负载主要是读取密集型的,并且在并发情况下表现出突发性特征。这对存储系统提出了极高的要求,即要实现高吞吐量和并行访问,同时还要保持稳定的延迟。
性能和效率数据所揭示的信息
三星的评估表明,当与高性能存储设备结合使用时,KV 缓存卸载能够显著提升推理的可扩展性。这种方法并非针对单一指标进行优化,而是影响了整个系统的性能、能效和运营成本等方面的表现。
在系统层面,将键值缓存移出处理环节能够减轻内存压力,并避免在推理过程中进行重复计算,从而在并发度增加的情况下保持稳定的延迟。通过将部分工作负载从计算环节转移到存储环节,能够更有效地利用GPU 资源,从而在负载下实现更高的吞吐量和更稳定的响应。
对可扩展的AI基础设施的影响
KV 缓存卸载功能的重要性日益凸显,这预示着AI系统架构将发生更广泛的转变。随着推理工作负载变得更加交互式和分布式,存储正从辅助组件转变为系统可扩展性的关键推动因素。
三星使用PM1753 进行的评估很好地说明了这一转变在实际应用中的情况。其存储能力,如高吞吐量、低延迟以及在并行访问下的稳定性能,使其能够在推理工作流程中发挥重要作用,而不会随着规模的扩大而成为瓶颈。
展望未来,KV 缓存卸载很可能会成为下一代AI基础设施设计中的关键考量因素。存储、计算以及系统架构之间的平衡将愈发决定AI服务在实际部署中的扩展效果如何。