
【科技24时区】2026年3月25日,谷歌研究院发布了一项名为TurboQuant的新型AI内存压缩算法,因其在不损失精度的前提下实现极致压缩,迅速在科技圈引发热议。不少网友将其与HBO热门剧集《硅谷》(Silicon Valley)中虚构初创公司Pied Piper的核心技术相提并论,该剧于2014至2019年播出,讲述了一支创业团队开发出近乎无损的高效文件压缩算法。
谷歌此次推出的TurboQuant虽非用于通用文件压缩,但其目标同样聚焦于“极致压缩、零精度损失”。该技术专门针对大语言模型推理过程中关键的“键值缓存”(KV Cache)瓶颈,通过向量量化方法显著降低AI系统运行时所需的“工作内存”。据研究人员介绍,TurboQuant可在无需重新训练或微调模型的前提下,将KV缓存压缩至3比特精度,内存占用减少至少6倍,同时保持模型输出准确性不变。
支撑TurboQuant高效性能的,是两项核心技术:PolarQuant量化方法与QJL(量化Johnson-Lindenstrauss)优化算法。前者通过对高维向量进行极坐标分解与自适应比特分配,提升压缩效率;后者则利用随机投影保留数据间关键距离关系,大幅削减冗余存储开销。谷歌计划于下月在ICLR 2026(国际学习表征会议)上正式发表TurboQuant相关论文,而PolarQuant与QJL则将在AISTATS 2026会议上亮相。
这一突破已引发产业界广泛关注。Cloudflare首席执行官Matthew Prince甚至称其为“谷歌的DeepSeek时刻”。他认为,TurboQuant预示着AI推理在速度、内存占用、功耗及多租户资源利用率等方面仍有巨大优化空间。
不过需指出的是,TurboQuant目前仍处于实验室阶段,尚未大规模部署。其压缩效果仅作用于推理阶段的KV缓存,对训练阶段所需的海量RAM并无直接影响。因此,尽管该技术有望显著降低云端AI服务成本,并推动大模型向手机、汽车等边缘设备迁移,但短期内难以缓解由AI训练驱动的全球DRAM与NAND闪存短缺问题。