
因为公众号平台更改了推送规则。记得点右下角的大拇指“赞”和红心“推荐”。这样每次新文章推送,就会第一时间出现在订阅号列表里。
当谷歌推出“TurboQuant”这一AI数据压缩技术时,该技术声称能够大幅减少模型运行所需的数据存储空间。许多人原本期望它能缓解内存短缺的问题,因为自去年以来,内存价格已经上涨了三倍。但实际情况并非如此。
尽管如此,其背后的这项技术仍值得我们进一步深入研究,因为它对模型开发者和推理者有着重大影响。

“TurboQuant 是什么?”
谷歌研究人员在最近的一篇博客文章中对此进行了详细说明,TurboQuant 实质上是一种用于将生成式AI中的数据从高精度压缩至低精度的方法,这种做法通常被称为“量化”。
据研究人员称,TurboQuant 能够在推理过程中将内存消耗降低至少6 倍。在当前DRAM 和NAND 价格处于历史高位的情况下,这一说法颇具吸引力。
然而,与大多数量化方法不同的是,TurboQuant 不会缩小模型的规模。相反,它的目标是减少用于存储在语言模型推理过程中用于维持上下文的KV缓存所需的内存量。
简而言之,KV缓存有点像模型的短期记忆。例如,在一次对话过程中,KV 缓存就是模型用来记录您对话内容的方式。
问题的关键在于,这些KV缓存可能会迅速积累起来,其占用的内存往往还会超过模型本身所占用的内存。
通常,这些KV 缓存是以16 位精度存储的,所以如果能够将用于存储它们的位数减少到8 位甚至4 位,那么所需内存就能减少2 倍到4 倍。
虽然TurboQuant 无疑让KV 缓存量化这一概念受到了关注,但其核心思想其实并非新颖的。实际上,出于这些原因,推理引擎通常会将KV缓存以FP8 的形式进行存储,这种情况相当常见。
然而,这种量化是有代价的。较低的精度意味着用于存储K值的位数减少,从而占用的内存也更少。这些量化方法还往往会带来自身的性能损耗。
这正是TurboQuant 技术创新的所在之处。谷歌宣称,仅使用3.5bit就能达到与BF16 类似的性能水平,同时还能减少那些令人头疼的开销。在4bit的情况下,声称在使用H100 进行attention对数值计算(用于确定上下文中哪些内容对请求来说是重要的或不重要的)时,速度能提高多达8 倍。
研究人员并未就此止步。在测试过程中,他们发现能够将KV 缓存压缩至2.5 位,且几乎不会造成质量损失,这就是所谓的6 倍内存缩减效果的来源所在。
它是如何运作的?
TurboQuant 能够实现这一目标,是因为它融合了两种数学方法:Quantized Johnson-Lindenstrauss(QJL)和PolarQuant。
PolarQuant 的工作原理是将KV 缓存向量(这些向量只是表示大小和方向的高维数学表达式)映射到一个使用极坐标而非笛卡尔坐标的圆形网格上。
谷歌的博客文章解释道:“这就好比将‘向东走3 个街区,再向北走4 个街区’这一指令,换成了‘以37 度角方向走总共5 个街区’这一指令。”
通过这种方式,向量的大小和方向现在由其半径和角度来表示。这消除了数据标准化所涉及的内存开销,因为每个向量现在都共享了一个共同的参考点。
除了PolarQuant 之外,谷歌还使用QJL 来纠正第一阶段中出现的任何错误,并确保模型用于确定哪些信息对响应请求而言是重要或不重要的这一attention分数的准确性。
结果是,这些向量可以使用极小的一部分内存进行存储。而且这项技术不仅适用于KV缓存,还适用于搜索引擎所使用的向量数据库。据谷歌称,该技术还具有相关应用意义。
原文链接:
高端微信群介绍 | |
创业投资群 | AI、IOT、芯片创始人、投资人、分析师、券商 |
闪存群 | 覆盖5000多位全球华人闪存、存储芯片精英 |
云计算群 | 全闪存、软件定义存储SDS、超融合等公有云和私有云讨论 |
AI芯片群 | 讨论AI芯片和GPU、FPGA、CPU异构计算 |
5G群 | 物联网、5G芯片讨论 |
第三代半导体群 | 氮化镓、碳化硅等化合物半导体讨论 |
存储芯片群 | DRAM、NAND、3D XPoint等各类存储介质和主控讨论 |
汽车电子群 | MCU、电源、传感器等汽车电子讨论 |
光电器件群 | 光通信、激光器、ToF、AR、VCSEL等光电器件讨论 |
渠道群 | 存储和芯片产品报价、行情、渠道、供应链 |

< 长按识别二维码添加好友 >
加入上述群聊

带你走进万物存储、万物智能、
万物互联信息革命新时代
