让AI模型永不遗忘新知识？Meta FAIR与UC Berkeley联手提出“稀疏内存微调”图2

在AI领域，大模型的"终身学习"能力一直是业界追求的核心目标：我们期待AI能像人类一样，在不断吸收新知识、新技能的同时，不丢失过往积累的能力。但现实往往不尽如人意：当大模型通过微调更新新数据时，极易出现"灾难性遗忘"（Catastrophic Forgetting），也就是在学习新内容的过程中，彻底丢失之前掌握的知识和技能。这一问题成为阻碍大模型实现持续学习的最大瓶颈，无论是个人化助手的精准适配，还是企业级AI系统的实时知识更新，都受限于此。

近日，Meta FAIR实验室与加州大学伯克利分校的联合团队在arXiv上发表了一篇题为《Continual Learning via Sparse Memory Finetuning》^[1]的论文，为这一难题提供了极具创新性的解决方案。该团队提出的"稀疏记忆微调"（Sparse Memory Finetuning）方法，借助记忆层的稀疏性更新特性，让大模型在高效学习新知识的同时，将旧有能力的遗忘率降至11% ，远超当前主流的全微调与LoRA方法。这一突破不仅为大模型持续学习开辟了新路径，更有望推动AI在个性化服务、实时知识更新等场景的规模化应用。

为何大模型学新就忘旧？

要理解这项工作的价值，首先要明确大模型持续学习面临的核心矛盾。现代大语言模型在预训练完成后，参数基本固定，若要学习新知识（如特定领域事实、用户个性化偏好等），通常需要通过微调更新参数。但问题在于，大模型的参数是共享的，同一组参数既承载着预训练阶段学到的通用知识（如语法规则、常识逻辑），又要适配新任务的特定需求。当微调更新参数时，新任务的优化目标会"覆盖"旧有知识的参数配置，导致模型在新任务上表现提升的同时，在原有任务上的性能急剧下降，这就是"灾难性遗忘"。

此前，业界已尝试过多种解决方案，但均存在明显短板。正则化方法（如权重衰减、KL惩罚）通过限制参数更新幅度来保护旧知识，但会牺牲新任务的学习效果；扩展参数方法（如LoRA、适配器）为新任务添加专属参数，虽减少遗忘，但新增参数容量有限，难以承载大量新知识；回放数据方法（Replay）通过持续复习旧数据缓解遗忘，但随着模型经验积累，所需复习的数据量呈指数增长，效率极低且难以规模化。

Meta与伯克利团队的核心洞察是：灾难性遗忘的根源在于"参数共享"导致的更新干扰，若能让模型仅更新与新知识强相关的少量参数，同时冻结承载旧知识的大部分参数，就能在学习与遗忘之间找到平衡。而记忆层（Memory Layers）的稀疏访问特性，恰好为这一思路提供了实现基础。

稀疏记忆微调的工作原理

该研究的创新点集中在"稀疏记忆微调"方法的设计上，其核心逻辑是"精准定位+稀疏更新"，通过三层架构与机制设计，实现新知识学习与旧知识保护的双赢。

1. 记忆层替换传统FFN

研究团队首先对标准Transformer模型进行改造，将模型中间层（如22层Transformer中的第12层）的前馈网络（FFN）替换为记忆层（Memory Layer）。这一记忆层包含一个规模庞大的记忆池（实验中采用100万个记忆槽），每个记忆槽存储特定的知识表征，由键（Keys）和值（Values）组成，类似一个巨大的"知识字典"。

当模型处理输入时，记忆层会通过注意力机制，从100万个记忆槽中筛选出与当前输入最相关的32个（k=32）记忆槽进行访问——这意味着，每个输入仅激活记忆池中极小比例（约0.0032%）的参数。这种稀疏访问特性，使得模型能够将不同知识分散存储在独立的记忆槽中，为后续的精准更新奠定基础。

让AI模型永不遗忘新知识？Meta FAIR与UC Berkeley联手提出“稀疏内存微调”图3 — 记忆层架构示意图。该架构将Transformer的FFN层替换为记忆查找模块，输入通过查询投影生成查询向量，从记忆池中匹配top-k个相关记忆槽，经加权求和与门控机制后输出。相比传统FFN，记忆层实现了知识的稀疏存储与访问。

2. TF-IDF筛选可更新记忆槽

仅依赖记忆层的稀疏访问还不够——若盲目更新所有被激活的记忆槽，仍可能覆盖承载通用知识的记忆槽，导致遗忘。因此，研究团队设计了基于TF-IDF的记忆槽筛选机制，精准定位"仅与新知识相关"的记忆槽进行更新。

具体来说，模型会先统计当前训练批次中每个记忆槽的访问频次（TF，词频），再对比这些记忆槽在背景语料（如预训练数据）中的访问频次（IDF，逆文档频率）。通过TF-IDF评分，筛选出"在当前批次高频访问，但在背景语料中低频访问"的记忆槽——这些记忆槽大概率是专门承载当前新知识的"专属存储单元"，而非支撑通用能力的"公共单元"。

模型仅对排名前t个（实验中t=500至10000）的高TF-IDF记忆槽进行微调更新，其余记忆槽（包括承载旧知识的通用记忆槽）保持冻结。这种"精准打击"式的更新，从根源上避免了新知识对旧知识的干扰。

让AI模型永不遗忘新知识？Meta FAIR与UC Berkeley联手提出“稀疏内存微调”图4

3.适配稀疏更新的训练配置

为了最大化稀疏记忆微调的效果，研究团队还优化了训练细节。在优化器选择上，发现SGD（随机梯度下降）比常用的AdamW更适合稀疏更新。SGD能减少参数更新的波动性，进一步降低遗忘率；在记忆层配置上，采用4个记忆头、1024维值向量的设置，平衡学习容量与计算效率；在数据处理上，通过 paraphrasing（释义）和 Active Reading（主动阅读）生成数据增强样本，确保新知识能被充分学习。

实验设计

为了全面验证稀疏记忆微调的有效性，研究团队设计了两大核心实验场景，覆盖"小数据事实学习"和"大规模文档流学习"，并与全微调、LoRA（参数高效微调的主流方法）进行了全方位对比。

1. 实验基础配置

基础模型：1.3B参数Transformer模型，所有方法使用相同预训练数据，确保公平对比。
记忆层设置：100万个记忆槽，4个记忆头，每个token访问32个记忆槽，替换Transformer中间层（第12层）的FFN。
对比方法：

全微调（Full Finetuning）：更新模型所有参数，学习能力强但遗忘严重；
LoRA：在注意力和FFN层添加低秩适配器，参数高效微调的主流方案。

优化器：稀疏记忆微调使用SGD，全微调与LoRA使用AdamW（经实验验证为各自最优配置）。

2. 实验场景与数据集

研究团队设计了两个贴近真实持续学习需求的场景，分别测试模型在不同数据规模下的学习与遗忘表现：

场景一：小数据事实学习（Fact Learning）

模拟"少量新知识实时更新"场景（如用户告知AI个人偏好、特定领域小样本事实）。数据集采用TriviaQA测试集中的1000个事实，将每个事实改写为陈述句，并通过释义生成多个样本填充批次（避免重复样本导致的学习偏差）。评估指标包括：

学习效果：TriviaQA事实的F1分数（衡量新知识掌握程度）；
遗忘程度：NaturalQuestions（预训练相关的问答任务）F1分数、GSM8K（数学推理任务）负对数似然（NLL），分数下降越少表示遗忘越少。

场景二：文档流学习（Document QA）

模拟"大规模连续文档学习"场景（如AI实时读取行业报告、新闻资讯更新知识）。数据集采用SimpleQA的维基百科子集，选取100个问题对应的1824个文档片段（按段落拆分），模型逐段学习每个文档片段，通过Active Reading生成增强样本提升学习效果。评估指标与场景一一致，同时增加SimpleQA目标任务的F1分数。

3. 评估方法

动态跟踪：在训练过程中（0-10000步），每隔一定步数记录目标任务（新知识）和保留任务（旧知识）的性能，绘制学习-遗忘曲线；
帕累托分析：通过调整超参数（如学习率、top-t值、LoRA的秩），绘制学习-遗忘帕累托前沿，判断方法的最优权衡能力；
消融实验：验证TF-IDF筛选、背景语料选择、记忆槽数量等关键组件的作用。

实验结果

实验结果表明，稀疏记忆微调在两大场景中均表现出碾压级优势。在掌握同等新知识的前提下，遗忘率远低于全微调和LoRA，实现了学习与遗忘的帕累托最优。

1. 小数据事实学习遗忘率仅11%

在TriviaQA 1000个事实的学习任务中，三种方法的表现形成鲜明对比：

全微调：TriviaQA F1分数达到较高水平，但NaturalQuestions F1分数暴跌89%，GSM8K NLL大幅上升，几乎完全丢失预训练的问答和推理能力；
LoRA：遗忘程度优于全微调，但NaturalQuestions F1仍下降71%，且新知识学习效果略逊于全微调；
稀疏记忆微调：TriviaQA F1分数与全微调相当（甚至更高），而NaturalQuestions F1仅下降11%，GSM8K NLL基本保持稳定，实现了"学新不忘旧"。

让AI模型永不遗忘新知识？Meta FAIR与UC Berkeley联手提出“稀疏内存微调”图5 — 小数据事实学习场景的学习与遗忘曲线。横坐标为训练步数，纵坐标为性能指标（F1或NLL）。可以看到，稀疏记忆微调（Memory）在TriviaQA（新知识）上持续提升，而在NaturalQuestions和GSM8K（旧知识）上几乎没有明显下降；全微调（Full FT）和LoRA则出现严重的遗忘现象。

2. 文档流学习

在1824个文档片段的连续学习任务中，由于数据多样性更高，全微调和LoRA的遗忘程度有所缓解，但仍远不及稀疏记忆微调：

全微调与LoRA：SimpleQA目标任务F1分数达到预期，但NaturalQuestions F1下降仍超过50%，GSM8K推理性能明显下滑；
稀疏记忆微调：在SimpleQA上达到与基线相当的F1分数，而NaturalQuestions F1下降不足15%，GSM8K NLL保持在较低水平，即使在大规模连续学习中仍能稳定保留旧有能力。

让AI模型永不遗忘新知识？Meta FAIR与UC Berkeley联手提出“稀疏内存微调”图6 — 文档流学习场景的性能对比。稀疏记忆微调（Memory）在SimpleQA（目标任务）上实现与全微调、LoRA相当的学习效果，同时在NaturalQuestions和GSM8K（保留任务）上的性能衰减显著更低，展现出更强的持续学习稳定性。

3. 帕累托前沿分析

为了进一步验证稀疏记忆微调的优势，研究团队通过超参数扫掠（如调整学习率、top-t值、LoRA的秩和alpha值），绘制了学习-遗忘的帕累托前沿，即"在给定学习效果下，遗忘程度最低；在给定遗忘程度下，学习效果最高"的最优曲线。

结果显示，稀疏记忆微调的所有数据点均位于帕累托前沿之上，而全微调和LoRA的点均在前沿之下。这意味着，无论如何调整超参数，全微调和LoRA都无法在"学习效果"和"遗忘程度"上同时超越稀疏记忆微调，证明了该方法在持续学习权衡中的绝对优势。

让AI模型永不遗忘新知识？Meta FAIR与UC Berkeley联手提出“稀疏内存微调”图7 — 学习与遗忘的帕累托前沿对比。横坐标为TriviaQA F1（学习效果），纵坐标为HellaSwag准确率下降值（遗忘程度）。稀疏记忆微调（Memory）的所有数据点均处于帕累托前沿，展现出最优的学习-遗忘权衡能力；全微调（Full FT）和LoRA则明显落后。

4. 消融实验

研究团队还通过消融实验，验证了稀疏记忆微调核心组件的作用：

TF-IDF筛选的必要性：对比"TF-IDF筛选top-t记忆槽"与"仅按访问频次（TF）筛选"，发现后者虽然学习效果相当，但遗忘率显著更高（尤其当t较小时）。原因是TF仅考虑当前批次的访问频次，可能会更新承载通用知识的记忆槽，而TF-IDF通过与背景语料对比，能精准避开这些通用记忆槽。

让AI模型永不遗忘新知识？Meta FAIR与UC Berkeley联手提出“稀疏内存微调”图8 — TF-IDF筛选与 naive 记忆微调的对比。可以看到，相同t值下，TF-IDF筛选（Memory t=50/500）在保留任务（GSM8K）上的性能明显优于仅按访问频次筛选（no reranking），证明了TF-IDF在减少遗忘中的关键作用。

背景语料的影响：对比不同背景语料（预训练数据DCLM、目标任务数据TriviaQA、保留任务数据NaturalQuestions）发现，使用预训练数据作为背景语料时，遗忘率最低；使用目标任务数据作为背景语料时，由于无法保护预训练知识，遗忘率显著上升；使用保留任务数据作为背景语料时，表现与预训练数据接近，进一步验证了TF-IDF筛选的精准性。

让AI模型永不遗忘新知识？Meta FAIR与UC Berkeley联手提出“稀疏内存微调”图9 — 不同背景语料对实验结果的影响。使用预训练数据（DCLM）或保留任务数据（NQ）作为背景语料时，遗忘程度更低；使用目标任务数据（TriviaQA）作为背景语料时，遗忘率明显上升，证明背景语料需覆盖待保护的旧知识。

稀疏更新的底层逻辑

通过实验分析，研究团队还揭示了稀疏记忆微调的几个关键发现，为后续持续学习研究提供了重要启示：

核心记忆集的存在：每个事实的知识仅存储在100-500个记忆槽中（称为"核心记忆集"），远少于批次访问的1k-100k个记忆槽。这一发现验证了"知识的稀疏存储"特性，也解释了为何仅更新少量记忆槽就能掌握新知识。
记忆槽与实体边界对齐：定性分析发现，被更新的高TF-IDF记忆槽，往往与文本中的实体边界（如人名、地名、事件名）对齐。这意味着模型会将实体相关的知识集中存储在特定记忆槽中，进一步提升了稀疏更新的精准性。
超参数的鲁棒性：稀疏记忆微调对超参数（如top-t值、学习率）的敏感度较低，即使t从50调整到1000，仍能保持较好的学习-遗忘权衡。这一特性降低了实际应用中的调参成本，提升了方法的实用性。

总结

Meta与伯克利团队的这项工作，通过"记忆层架构+TF-IDF稀疏筛选"的创新组合，成功破解了大模型持续学习中的灾难性遗忘难题，其核心贡献不仅在于提出了一种高效的微调方法，更在于验证了"稀疏参数更新"是实现持续学习的关键路径。

与现有方法相比，稀疏记忆微调的优势十分显著：无需回放旧数据（数据高效）、不新增大量参数（计算高效）、学习效果与全微调相当（学习能力强）、遗忘率仅为11%（稳定性高）。这些特性使其能够适配多种持续学习场景，例如：

个性化AI助手：实时学习用户偏好，不丢失通用对话与推理能力；
行业知识更新：持续吸收行业报告、政策文件，保持专业知识时效性；
边缘设备AI：在计算资源有限的情况下，高效更新局部知识。

研究团队表示，未来将探索更复杂的记忆槽筛选机制（如输入依赖的动态t值调整）、扩展到更大规模模型（如10B以上参数）、适配更广泛的任务类型（如代码生成、多模态理解）。此外，如何将稀疏记忆微调与检索增强生成（RAG）结合，实现"参数内记忆+外部检索"的双重知识更新，也将是重要的研究方向。

在大模型参数规模趋于饱和的今天，通过架构创新实现参数的"精准利用"，可能比单纯增加参数规模更能解决核心问题。

> 本文由 Intern-S1 等 AI 生成，机智流编辑部校对

《Continual Learning via Sparse Memory Finetuning》: https://arxiv.org/abs/2510.15103v1

-- 完 --