「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」?

机器之心 2025-12-14 09:30

机器之心PRO · 会员通讯 Week 50

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」?

「Memory as a Context」 是什么?「Memory as a Context」如何实现「Test-time Memorization」?什么是「记忆增强型 Transformer」?Transformer 如何变成自适应的 Test-Time Learning 系统?Titan/Atlas/HOPE的记忆改善思路有何区别?近期有哪些方法让Transformer获得长期记忆?...

2. 2026 将近,世界模型到底更「世界」了吗?

Sora 式像素级模拟更可靠,V-JEPA 式抽象表征预测更高效?世界模型输出的「世界」应是静态资产、实时帧序列,还是驱动预测与控制的 latent state?大厂布局世界模型,是在补充「数据引擎」,还是搭建「时空认知」的新框架?...

3. 基于 100 万亿 Token 的深度分析:OpenRouter 联合 a16z 发布《State of AI》报告

中国开源模型如何在一年内将全球流量份额从 1.2% 提升至近 30%?为什么「智能体式推理」取代了「对话生成」,成为消耗超过 50% 流量的主流范式?15B-70B 的「中型模型」如何击败小模型与超大模型,成为效能平衡的最优解?为什么 AI 应用正在向「高成本生产力」与「低成本娱乐」两个极端集中?...

 

要事解读①  「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」?

引言伴随 LLM 的能力边界不断拓展,Transformer 记忆机制的短板逐渐成为制约其向更高阶智能演进的核心瓶颈。伴随业界对 LLM 记忆能力的探究与重视,谷歌于 2024 年底提出的 Titans 于近期再度引起热议,探讨其思路是否将重新定义 Transformer 的记忆模式。

 

「长期记忆」的未来方向会是 Titans 式的「Memory as  a Context」吗?

1、12 月 4 日,谷歌团队于 NeurIPS 2025 分享了「Titans」工作,而后发布官方博客对其「Titans」架构路线及其理论框架「MIRAS」,并在博文中提出「测试时记忆」的概念。[1-1] [1-2] 

① 「Titans」论文此前 2024 年 12 月底发布于 arxiv,该工作设计了一种神经长期记忆模块,能够在测试时根据新的输入数据进行在线学习和优化。该模块以深度神经网络(多层感知器)的形式运行。Titans 的核心突破在于该架构不是被动存储数据,而是会主动学习如何识别并保留连接整个输入数据中,各个标记的重要关系和概念主题。

② 「MIRAS」论文则发布于 2025 年 4 月,该框架试图为复杂多样的系列建模方法提供一个统一的理论视角,将各种架构视为不同问题的解决方法,并将任意架构视为「联想记忆架构」「注意力偏差」「记忆保持门控」「记忆学习算法」四个组件的抽象组合。[1-3] [1-4] 

3、Titans 提出了三种架构变体,以将神经记忆模块动态记忆能力和 Transformer 的精确注意力机制结合。这三种变体分别代表不同的记忆集成思路,分别是「Memory as a Context」(MAC)、「Memory as a Gate」和「Memory as a Layer」。

4、伴随业界近期愈发重视对 LLM 记忆力局限的改进,技术社区对Titans 和 MAC 思路的探讨进一步升温,有支持声音认为其将重新定义 Transformer 的记忆模式;然而今年10月,来自罗马大学的研究者通过轻量级的Titans复现实验发现受限于分块(Chunking)机制,Titans 并不总能超越现有的基准模型;Frozen backbone 在将输入映射到键值空间(Key-Value space)时与记忆组件的演化方式之间或存在不匹配问题,记忆与backbone之间的适配优化仍然存在不小挑战。 [1-5] [1-6] 

5、尽管如此,罗马大学的研究者同时也指出与仅使用注意力的模型(Attention-only models)相比,其神经记忆(Neural Memory)组件能够持续提升模型性能。

 

Transformer 的记忆模式如何转变为自适应的 Test-Time Learning 系统?

1、除了谷歌团队,业界在对 Attention 局限的共识下同样一直在探索 LLM 记忆力的改进方案,出使模型能够获得持续学习能力,从而适应动态变化的部署环境。有思潮认为,在 LLM 语境下,持续学习或许是一个「记忆管理」问题。(详见 Pro 会员通讯 2025 Week 46)

2、基于包含 Titans 在内的一系列探索工作,华为的研究者于 2025 年 8 月的「Memory-Augmented Transformers Review」(下文简称「review」)中指出,LLM 的记忆机制正从被动的静态缓存(Static Caches)转变为具有自适应能力的测试时学习系统。[1-7] 

3、这种「自适应测试时学习系统」指模型在推理阶段无需重新训练或微调,即可通过动态调整记忆策略,实时适配任务需求与环境变化,实现 「边用边学」 的记忆能力。[1-7] 

 

表:「自适应测试时学习系统」(记忆增强型 Transformer)的记忆操作机制、核心技术与代表模型。[1-7] 

「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」?图2

 

3、研究者在「review」中梳理了过往 7 年对「读取」「写入」「遗忘」「容量管理」四项 LLM 核心记忆操作的技术演进分析,总结了遗忘静态缓存机制的 LLM 存在的局限,以及近期工作对各项操作的改进方法。[1-7]

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
Terafab芯片工厂提上日程,马斯克重大宣布!
追觅连发三款芯片;小米计划下半年在印度扩张大家电业务;英伟达入局内存研发
三星罢工风波或重创全球存储芯片供应链
传国产芯片巨头下场养虾,C86加速拥抱AI
暴涨超16%!2000亿芯片巨头突然爆发
寒武纪、沐曦、摩尔齐发业绩,国产AI芯片的盈亏与分化
1nm 芯片!为了 AI 算力,IBM 和泛林再次联手
马斯克正式宣布世界最大晶圆厂:7天后启动 颠覆芯片制造!
模拟芯片龙头TI,究竟在下怎样一盘棋?
广东发力!GPU、FPGA、NPU 高端通用AI芯片!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号