KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026

量子位 2026-06-14 12:00

百度百舸团队投稿
量子位 | 公众号 QbitAI

随着AI Coding、Agent、Deep Research 等应用快速普及，模型单次处理的上下文长度正在从几万Token迈向几十万甚至百万Token。

一个看似“隐形”的瓶颈正悄然制约着推理效率——

KV Cache（键值缓存）的内存占用随序列长度线性增长，不仅推高显存成本，更直接限制了批量推理的吞吐能力。

对此，百度百舸团队联合复旦大学可信具身智能研究院，在长上下文高效推理方向取得重要进展。

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图1

相关成果《Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction》被机器学习顶会ICML 2026录用。

联合团队提出的LU-KV框架，在80% KV Cache压缩率下，相对性能损失仅0.52%（以Qwen2.5-32B在LongBench 的评测结果为例），在效率–精度权衡曲线上达到新的SOTA水平。

为什么现有方法会“看走眼”？

当前主流的KV Cache压缩方案（如SnapKV、KeyDiff、AdaKV等）通常遵循一个朴素假设：注意力分数高的Token更重要，应该优先保留。

这种“看当前分数大小”的策略在单头内部往往有效，但当预算需要在几十层、几百个注意力头之间分配时，问题就暴露了。

本工作发现，这种「看当前分数大小」的分配逻辑会忽略不同注意力头在长期语义信息保留能力上的差异，容易把缓存预算分配给短期分数高、但长期贡献有限的Token，造成缓存预算与长程信息价值之间的错配。

针对这一问题，团队提出Long-horizon Utility KV（LU-KV）框架，将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。

LU-KV 的核心思路：用“投资回报率”思维重构缓存分配

既然核心瓶颈在于跨头预算分配，LU-KV具体如何运作？

团队并未在单头打分器上做修补，而是构建了一套从“理论标尺”到“全局优化”，再到“工程落地”的完整技术路径，大致拆解为三步。

第一步：立下“真标尺”——定义Oracle Importance，量化认知偏差

要解决预算错配，首先得知道“什么才是真正的重要”。

LU-KV提出 Oracle Importance（真实重要性）指标，将Token的重要性定义为：

通过前瞻未来K步解码窗口，直接计算每个Token能产生的最大潜在贡献。

这把重要性评估从“单步瞬时注意力”升级为“长程前瞻效用”。

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图2

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图3

有了这把标尺，团队首次严格量化了现有启发式指标与真实重要性之间的 “最优性差距（Optimality Gap）”，证明了盲目按瞬时分数分配预算必然导致长期语义流失，也为后续的优化提供了明确的数学靶心。

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图4

第二步：解“全局题”——凸包松弛+贪心策略，将非凸难题转化为高效求解

有了衡量偏差的标尺，预算分配就不再是凭感觉“分蛋糕”，而是一个明确的全局组合优化问题：

如何在总预算固定的约束下，让所有注意力头的长期信息保留总损失最小？该问题本质上是 NP-hard 的非凸离散优化。

为此，团队引入凸包松弛（Convex-hull Relaxation）技术，将原本波动的损失曲线“熨平”为边际收益严格递减的平滑函数。

这一数学变换使得复杂的组合优化问题具备了单调性，从而可以用基于边际效用的全局贪心算法快速逼近最优解。

如下图所示，在凸包松弛下，原本NP-hard的非凸离散优化问题被转化为边际收益严格递减的平滑形式。

此时，采用全局贪心算法求解所得的结果，与动态规划（DP）求解原始组合优化问题的最优解高度吻合。

换言之，系统能自动算出：把下一个Token的缓存配额分给哪个头，才能最大化长程语义的保留收益。

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图5

第三步：过“落地关”——离线画像+在线查表，让理论最优实现零开销部署

有了衡量偏差的标尺，预算分配就不再是凭感觉“分蛋糕”，而是一个明

理论上求出了最优分配策略，但直接在线计算Oracle Importance和实时优化，会带来不可接受的推理延迟。

如何让算法真正走向生产？团队抓住了大模型的一个关键特性：不同注意力头的全局-局部压缩率比例，在各类任务中呈现出高度的结构稳定性（如下图所示）。

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图6

基于这一洞察，LU-KV设计了数据驱动的离线Profiling 协议：

在部署前，用合成数据预计算每个头在不同压缩率下的最优预算比例，生成一张静态查找表。

在线推理时，系统只需根据目标压缩率“查表”获取各头预算，随即执行独立驱逐。

从理论优化到工程实践，LU-KV成功将复杂的在线计算转化为O(1)的查表操作，实现了真正的零开销部署。

值得一提的是，LU-KV并不替代底层的Token打分方法，而是作为通用的预算分配层，可即插即用适配SnapKV、KeyDiff等多种压缩指标，具备良好的工程兼容性与迁移能力。

实验数据：压缩 80%，性能几乎不打折

团队在Mistral-7B-Instruct-v0.3和Qwen2.532B-Instruct中评价了该方案，使用Snapkv和KeyDiff作为两种KVCache重要性评价指标，与PyramidKV，AdaKV这类Budget SOTA分配方案进行了对比。对比结果如下：

LongBench上：在80%压缩率下，该方法有效最小化了总体逐出损失，从而带来了显著的精度提升。

在Mistral-7B-v0.3模型上结合KeyDiff方法，该方法将平均准确率从40.54 (AdaKV) 提高到46.21，恢复了压缩模型与Full-KV上界之间84%的性能差距。

重要的是，这些提升在多个领域（从摘要到合成任务）中都很稳健，表明学习到的压缩分布成功捕捉了每个领域的细微差别。

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图7

RULER上：在极端检索任务中，在Mistral-7B-v0.3模型上使用SnapKV指标，传统策略表现明显不佳：均匀压缩的平均准确率降至29.53%，AdaKV也仅能小幅提升至37.48%。

相比之下，在相同的80% 压缩率下，该方法实现了69.98%的平均准确率。值得注意的是，在具有挑战性的multi-key-3任务上，该方法将性能从1.00%（均匀压缩）提升至67.40%，显示出在保留稀疏但关键信息方面的强大鲁棒性。

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图8

更多细节，请见ICML 2026论文或访问GitHub项目主页。

论文链接：https://icml.cc/virtual/2026/poster/65241
项目主页：https://github.com/baidu-baige/LU-KV

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉

KV Cache终于不用无脑全留了！百度&复旦用「投资回报率」重新分配缓存｜ICML 2026图9

🌟 点亮星标 🌟

科技前沿进展每日见

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

IC 投资百度

more

聊天框装不下的野心，被百度文心 APP 塞进了 AI 群聊里

APPSO 4个月前

聊天框装不下的野心，被百度文心 APP 塞进了 AI 群聊里

港股鞋王千百度，一夜完成AI数据公司转型

量子位 1周前

港股鞋王千百度，一夜完成AI数据公司转型

国内首个纯AI自治贴吧“抓虾吧”禁止人类发帖引热议，百度回应已介入核查

科技区角 2个月前

国内首个纯AI自治贴吧“抓虾吧”禁止人类发帖引热议，百度回应已介入核查

百度“All-in龙虾”战略陷困局：全栈布局难掩商业闭环缺失

科技区角 2个月前

百度“All-in龙虾”战略陷困局：全栈布局难掩商业闭环缺失

百度发布全球首款家用AI智能体“小度龙虾”，开启家庭智能普惠新阶段

科技区角 2个月前

百度发布全球首款家用AI智能体“小度龙虾”，开启家庭智能普惠新阶段

全民“养虾”时代？微信QQ内测接入OpenClaw“大杀器”，腾讯、字节、百度疯抢市场

IT之家 3个月前

全民“养虾”时代？微信QQ内测接入OpenClaw“大杀器”，腾讯、字节、百度疯抢市场

百度推全球首款手机“龙虾”应用，两步实现零门槛AI智能体部署

科技区角 3个月前

百度推全球首款手机“龙虾”应用，两步实现零门槛AI智能体部署

从“技术高地”到“产品洼地”：百度AI困局与人才外溢之谜

科技区角 4个月前

从“技术高地”到“产品洼地”：百度AI困局与人才外溢之谜

2026年高考志愿怎么填报？百度用“AI+真人专家”助你选对未来

i智说 4天前

2026年高考志愿怎么填报？百度用“AI+真人专家”助你选对未来

百度去年广告业务继续失速，Q4减员3100人花掉7亿遣散费，李彦宏称坚持模型研发

搜狐科技 3个月前

百度去年广告业务继续失速，Q4减员3100人花掉7亿遣散费，李彦宏称坚持模型研发

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号