【区角快讯】美东时间3月26日,美股存储芯片板块大幅下挫,其中闪迪股价跌幅超过11%,希捷科技下跌逾8%,超威半导体与西部数据均跌超7%,美光科技亦接近7%的跌幅。

此轮抛售潮的导火索,源于谷歌研究院即将在国际学习表征会议(ICLR 2026)上发表的一篇学术论文。该研究提出名为“TurboQuant”的新型AI内存压缩技术。据谷歌方面披露,该技术能在不损失模型准确性的前提下,将大语言模型推理过程中的键值缓存(KV Cache)内存占用压缩至原有水平的六分之一,并在英伟达H100 GPU上实现最高达8倍的性能提升。
KV缓存是AI模型运行时的关键“工作内存”,用于暂存历史上下文信息。随着输入文本长度增加,该缓存呈线性增长,成为制约推理效率与成本的核心瓶颈。TurboQuant采用一种高度优化的量化压缩方案,结合PolarQuant(极坐标量化)与QJL(量化JL变换)两项创新方法,在维持零精度损失的同时,将KV缓存压缩至3-bit精度,突破了传统量化需在压缩率与额外开销间权衡的局限。
Cloudflare首席执行官评价称,这项成果堪称谷歌的“DeepSeek时刻”,有望通过极致效率显著降低AI部署成本。然而,摩根士丹利在最新研报中指出,市场对此存在明显误判。该技术仅适用于推理阶段的KV缓存优化,对模型权重所依赖的高带宽内存(HBM)无影响,亦不涉及AI训练环节。
分析师进一步解释,“6倍压缩”并非意味着整体存储需求下降,而是通过提升单GPU内存利用效率,支持4至8倍更长的上下文窗口,或在不触发内存溢出的情况下扩大批处理规模。截至目前,谷歌尚未公布TurboQuant在Gemini等自研模型中的具体落地时间表,相关成果预计将于下月在ICLR 2026会议上正式发布。
当前市场对AI硬件需求的短期情绪波动,反映出投资者对底层技术演进的理解仍显不足;长期来看,效率提升更可能激发新应用场景,而非抑制存储需求。