谷歌的TurboQuant存储压缩技术是什么?

SSDFans 2026-04-14 07:42
谷歌的TurboQuant存储压缩技术是什么?图1


点击蓝字
关注我们



因为公众号平台更改了推送规则。记得点下右下角的大拇指“赞”红心“推荐”。这样每次新文章推送,就会第一时间出现在订阅号列表里。

因为公众号平台更改了推送规则。记得点右下角的大拇指“赞”红心“推荐”。这样每次新文章推送,就会第一时间出现在订阅号列表里。


当谷歌推出TurboQuant”这一AI数据压缩技术时,该技术声称能够大幅减少模型运行所需的数据存储空间。许多人原本期望它能缓解内存短缺的问题,因为自去年以来,内存价格已经上涨了三倍。但实际情况并非如此。

尽管如此,其背后的这项技术仍值得我们进一步深入研究,因为它对模型开发者和推理者有着重大影响。

谷歌的TurboQuant存储压缩技术是什么?图2

TurboQuant 是什么?”

谷歌研究人员在最近的一篇博客文章中对此进行了详细说明,TurboQuant 实质上是一种用于将生成式AI中的数据从高精度压缩至低精度的方法,这种做法通常被称为“量化”。

据研究人员称,TurboQuant 能够在推理过程中将内存消耗降低至少倍。在当前DRAM NAND 价格处于历史高位的情况下,这一说法颇具吸引力

然而,与大多数量化方法不同的是,TurboQuant 不会缩小模型的规模。相反,它的目标是减少用于存储在语言模型推理过程中用于维持上下文的KV缓存所需的内存量。

简而言之,KV缓存有点像模型的短期记忆。例如,在一次对话过程中,KV 缓存就是模型用来记录您对话内容的方式。

问题的关键在于,这些KV缓存可能会迅速积累起来,其占用的内存往往还会超过模型本身所占用的内存。

通常,这些KV 缓存是以16 位精度存储的,所以如果能够将用于存储它们的位数减少到位甚至位,那么所需内存就能减少倍到倍。

虽然TurboQuant 无疑让KV 缓存量化这一概念受到了关注,但其核心思想其实并非新颖的。实际上,出于这些原因,推理引擎通常会将KV缓存以FP8 的形式进行存储,这种情况相当常见。

然而,这种量化是有代价的。较低的精度意味着用于存储K值的位数减少,从而占用的内存也更少。这些量化方法还往往会带来自身的性能损耗。

这正是TurboQuant 技术创新的所在之处。谷歌宣称,仅使用3.5bit就能达到与BF16 类似的性能水平,同时还能减少那些令人头疼的开销。在4bit的情况下,声称在使用H100 进行attention对数值计算(用于确定上下文中哪些内容对请求来说是重要的或不重要的)时,速度能提高多达倍。

研究人员并未就此止步。在测试过程中,他们发现能够将KV 缓存压缩至2.5 位,且几乎不会造成质量损失,这就是所谓的倍内存缩减效果的来源所在。

它是如何运作的?

TurboQuant 能够实现这一目标,是因为它融合了两种数学方法:Quantized Johnson-LindenstraussQJL)和PolarQuant

PolarQuant 的工作原理是将KV 缓存向量(这些向量只是表示大小和方向的高维数学表达式)映射到一个使用极坐标而非笛卡尔坐标的圆形网格上。

谷歌的博客文章解释道:“这就好比将‘向东走个街区,再向北走个街区’这一指令,换成了‘以37 度角方向走总共个街区’这一指令。”

通过这种方式,向量的大小和方向现在由其半径和角度来表示。这消除了数据标准化所涉及的内存开销,因为每个向量现在都共享了一个共同的参考点。

除了PolarQuant 之外,谷歌还使用QJL 来纠正第一阶段中出现的任何错误,并确保模型用于确定哪些信息对响应请求而言是重要或不重要的这一attention分数的准确性。

结果是,这些向量可以使用极小的一部分内存进行存储。而且这项技术不仅适用于KV缓存,还适用于搜索引擎所使用的向量数据库。据谷歌称,该技术还具有相关应用意义。



原文链接:

https://www.theregister.com/2026/04/01/googles_turboquant_reality/






高端微信群介绍

创业投资群


AI、IOT、芯片创始人、投资人、分析师、券商

闪存群


覆盖5000多位全球华人闪存、存储芯片精英

云计算群


全闪存、软件定义存储SDS、超融合等公有云和私有云讨论

AI芯片群


讨论AI芯片和GPU、FPGA、CPU异构计算

5G群


物联网、5G芯片讨论

第三代半导体群

氮化镓、碳化硅等化合物半导体讨论

储芯片群

DRAM、NAND、3D XPoint等各类存储介质和主控讨论

汽车电子群

MCU、电源、传感器等汽车电子讨论

光电器件群

光通信、激光器、ToF、AR、VCSEL等光电器件讨论

渠道群

存储和芯片产品报价、行情、渠道、供应链



谷歌的TurboQuant存储压缩技术是什么?图3


< 长按识别二维码添加好友 >

加入上述群聊


谷歌的TurboQuant存储压缩技术是什么?图4


长按并关注

带你走进万物存储、万物智能、

万物互联信息革命新时代

谷歌的TurboQuant存储压缩技术是什么?图5
微信号:SSDFans



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
存储
more
三星中国启动战略“瘦身” 聚焦手机与存储业务
存储架构逻辑,HBM为何无可替代?
重磅!千亿存储龙头,签订超100亿元采购合同
存储成本暴涨致AYANEO NEXT 2掌机暂停销售,锐龙AI Max+ 395平台遇冷
存储芯片紧缺推高旧机回收价 废旧手机成“电子黄金”
端侧AI进入爆发期,江波龙“集成存储”引领AI PC/手机、可穿戴存储创新
干崩存储股的谷歌爆红论文塌房!被曝抄袭、贬低华人学者成果,谷歌回应:晚点改
三星中国或将大调整:只保留手机和存储部门 其余全撤!
研报 | 低容量NAND Flash供给紧缩、品牌推动AI革新,预估2026年智能手机平均存储容量年增4.8%
存储器价格飙涨,高通联发科或削减4nm芯片
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号