「Memory as a Context」是否将重新定义 Transformer 的「记忆模式」？

机器之心PRO · 会员通讯 Week 50

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 「Memory as a Context」是否将重新定义 Transformer 的「记忆模式」？

「Memory as a Context」是什么？「Memory as a Context」如何实现「Test-time Memorization」？什么是「记忆增强型 Transformer」？Transformer 如何变成自适应的 Test-Time Learning 系统？Titan/Atlas/HOPE的记忆改善思路有何区别？近期有哪些方法让Transformer获得长期记忆？...

2. 2026 将近，世界模型到底更「世界」了吗？

Sora 式像素级模拟更可靠，V-JEPA 式抽象表征预测更高效？世界模型输出的「世界」应是静态资产、实时帧序列，还是驱动预测与控制的 latent state？大厂布局世界模型，是在补充「数据引擎」，还是搭建「时空认知」的新框架？...

3. 基于 100 万亿 Token 的深度分析：OpenRouter 联合 a16z 发布《State of AI》报告

中国开源模型如何在一年内将全球流量份额从 1.2% 提升至近 30%？为什么「智能体式推理」取代了「对话生成」，成为消耗超过 50% 流量的主流范式？15B-70B 的「中型模型」如何击败小模型与超大模型，成为效能平衡的最优解？为什么 AI 应用正在向「高成本生产力」与「低成本娱乐」两个极端集中？...

要事解读① 「Memory as a Context」是否将重新定义 Transformer 的「记忆模式」？

引言：伴随 LLM 的能力边界不断拓展，Transformer 记忆机制的短板逐渐成为制约其向更高阶智能演进的核心瓶颈。伴随业界对 LLM 记忆能力的探究与重视，谷歌于 2024 年底提出的 Titans 于近期再度引起热议，探讨其思路是否将重新定义 Transformer 的记忆模式。

「长期记忆」的未来方向会是 Titans 式的「Memory as a Context」吗？

1、12 月 4 日，谷歌团队于 NeurIPS 2025 分享了「Titans」工作，而后发布官方博客对其「Titans」架构路线及其理论框架「MIRAS」，并在博文中提出「测试时记忆」的概念。[1-1] [1-2]

① 「Titans」论文此前 2024 年 12 月底发布于 arxiv，该工作设计了一种神经长期记忆模块，能够在测试时根据新的输入数据进行在线学习和优化。该模块以深度神经网络（多层感知器）的形式运行。Titans 的核心突破在于该架构不是被动存储数据，而是会主动学习如何识别并保留连接整个输入数据中，各个标记的重要关系和概念主题。

② 「MIRAS」论文则发布于 2025 年 4 月，该框架试图为复杂多样的系列建模方法提供一个统一的理论视角，将各种架构视为不同问题的解决方法，并将任意架构视为「联想记忆架构」「注意力偏差」「记忆保持门控」「记忆学习算法」四个组件的抽象组合。[1-3] [1-4]

3、Titans 提出了三种架构变体，以将神经记忆模块动态记忆能力和 Transformer 的精确注意力机制结合。这三种变体分别代表不同的记忆集成思路，分别是「Memory as a Context」（MAC）、「Memory as a Gate」和「Memory as a Layer」。

4、伴随业界近期愈发重视对 LLM 记忆力局限的改进，技术社区对Titans 和 MAC 思路的探讨进一步升温，有支持声音认为其将重新定义 Transformer 的记忆模式；然而今年10月，来自罗马大学的研究者通过轻量级的Titans复现实验发现受限于分块（Chunking）机制，Titans 并不总能超越现有的基准模型；Frozen backbone 在将输入映射到键值空间（Key-Value space）时与记忆组件的演化方式之间或存在不匹配问题，记忆与backbone之间的适配优化仍然存在不小挑战。 [1-5] [1-6]

5、尽管如此，罗马大学的研究者同时也指出与仅使用注意力的模型（Attention-only models）相比，其神经记忆（Neural Memory）组件能够持续提升模型性能。

Transformer 的记忆模式如何转变为自适应的 Test-Time Learning 系统？

1、除了谷歌团队，业界在对 Attention 局限的共识下同样一直在探索 LLM 记忆力的改进方案，出使模型能够获得持续学习能力，从而适应动态变化的部署环境。有思潮认为，在 LLM 语境下，持续学习或许是一个「记忆管理」问题。（详见 Pro 会员通讯 2025 Week 46）

2、基于包含 Titans 在内的一系列探索工作，华为的研究者于 2025 年 8 月的「Memory-Augmented Transformers Review」（下文简称「review」）中指出，LLM 的记忆机制正从被动的静态缓存（Static Caches）转变为具有自适应能力的测试时学习系统。[1-7]

3、这种「自适应测试时学习系统」指模型在推理阶段无需重新训练或微调，即可通过动态调整记忆策略，实时适配任务需求与环境变化，实现「边用边学」的记忆能力。[1-7]

表：「自适应测试时学习系统」（记忆增强型 Transformer）的记忆操作机制、核心技术与代表模型。[1-7]

「Memory as a Context」是否将重新定义 Transformer 的「记忆模式」？图2

3、研究者在「review」中梳理了过往 7 年对「读取」「写入」「遗忘」「容量管理」四项 LLM 核心记忆操作的技术演进分析，总结了遗忘静态缓存机制的 LLM 存在的局限，以及近期工作对各项操作的改进方法。[1-7]

要事解读① 「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」？

「长期记忆」的未来方向会是 Titans 式的「Memory as a Context」吗？

Transformer 的记忆模式如何转变为自适应的 Test-Time Learning 系统？

要事解读① 「Memory as a Context」是否将重新定义 Transformer 的「记忆模式」？