编者按：AI的未来，不仅在于更大的模型，更在于更聪明的记忆。此文是近期我读到关于AI内存领域最系统、最富洞见的剖析之一，清晰指出了技术深水区的挑战与机遇。

Memex 2.0：内存，实现真正智能所缺失的拼图

DANIEL & VADYM BARDA

2025年7月17日

我们都曾有过这样的经历：你向 AI 助手询问上周推荐的食谱，它却回答：「抱歉，什么食谱？」

更糟的是，它会幻觉出你们从未讨论过的内容。即便上下文窗口已能扩展到数百万 token，多数 AI 智能体仍饱受功能性失忆之苦。

但假如内存能将这些健忘的程序，转变为能够学习、个性化并随时间演化的自适应伙伴呢？

人工智能最有前途的应用，尚未到来。真正的个性化与长期效用，完全取决于智能体记忆、学习和适应的能力。

随着基础模型、智能体框架和专用基础设施的飞速发展，生产就绪的内存系统终于崭露头角。

对于创始人和工程师而言，这比以往任何时候都更加重要。当所有人都在问：「护城河在哪里？」内存，或许就是答案。

它能创造深度个性化的体验，并随时间产生复利效应，从而建立用户锁定，提高转换成本。

随着内存对智能体性能变得至关重要，一个新问题浮出水面：价值最终将沉淀在技术栈的哪一层？

是基础模型提供商从根源上攫取所有价值？还是紧握开发者关系的智能体框架最具优势？

亦或是，这个挑战本身极其复杂，真正的赢家将是一类专注于内存的、全新的专用基础设施提供商？

今天，AI 领域对内存的追求，呼应着一个古老的梦想。

1945年，万尼瓦尔·布什设想了「Memex」—— 一台桌面大小的机器，旨在通过创建信息的关联轨迹来增强人类记忆。

它连接思想的方式，正如人脑自然地连接概念。那个愿景在当时过于超前，但如今，所有拼图正逐渐聚合，让实现那个梦想终成可能。

Memex is already here, it's just not evenly distributed

在这篇文章中，我们将深入剖析：

内存问题为何悬而未决，又为何如此难以解决。
新兴的参与者与架构：框架、基础设施和模型提供商。
价值最有可能在技术栈的哪个层面集中。
避免失败模式和隐私陷阱的可行策略。

内存的剖析

传统应用早已能够存储用户数据和状态，但生成式 AI 带来了一个全新的内存挑战：如何将非结构化的交互，转化为可操作的上下文。

正如 MongoDB 开发者关系倡导者 Richmond Alake 所言：

AI 中的内存并非全新概念——像语义相似性和向量数据等理念已存在多年——但它在现代 AI 智能体中的应用，才是真正的革命。
智能体正普及于各类软件中，而我们当下使用内存以实现个性化、学习和适应的方式，代表了一次全新的范式转变。

如今的目标，已不只是存储数据，更是在正确的时间，检索到正确的上下文。

智能体中的内存采用分层工作模式，它结合了快速、短暂的短期内存与结构化、持久的长期内存。

短期内存，也称工作内存，负责保存近期的对话上下文，如同计算机的 RAM。

它能确保对话的连贯性，但受限于智能体的上下文窗口。一旦填满，旧的交流内容便会被丢弃、总结或迁移至长期内存。

长期内存，则跨越不同会话，提供持久的连续性，使智能体能建立长久的理解，并支持复利智能。

它由模块化的「内存块」构成，具体包括：

语义内存：存储事实，如用户偏好或关键实体。这些信息可被预定义（「用户的名字是 Logan」）或动态提取（「用户有一个姐姐」）。
情景内存：回忆过去的交互，以指导未来的行动（例如，「上次用户要求摘要更简洁一些」）。
程序内存：记录成功或失败的流程步骤，以便持续改进（「预订航班的流程是：先确认日期、目的地，然后是乘客数量」）。

一个强大的内存系统远不止于存储，它还需要机制来决定保留什么、如何检索，以及何时更新或覆写。

管理内存的一项关键要求，是在存储的数据内部建立更新机制。

这使得智能体能用新信息修改或取代旧记忆，从而浮现出超越常规文本匹配或相关性分数的、真正有价值的细节。

大规模实现内存的挑战

实现强大的内存系统，并非简单存储聊天记录那么轻松；它带来一系列挑战，并随应用规模的扩大而愈发严峻。

真正的核心挑战，在于执行所谓的内存管理。

首要瓶颈是大型语言模型上下文窗口的实际限制与成本。模型要利用内存，就必须将数据载入上下文。

尽管窗口限制已大幅扩展，例如 Gemini 的 100 万 token，但终究有限。计算成本呈二次方级增长，使超大上下文在经济上对许多应用并不可行。

DeepMind 的研究也指出，即便 1000 万 token 的上下文在技术上可行，也缺乏商业上的经济性。

除了容量，如何检索到正确信息，是另一项重大挑战。

作为许多检索增强生成系统核心的简单语义相似性，常常无法捕捉到真实的上下文关联，且随着内存库的膨胀，问题愈发严重。

累积的交互增加了提取出陈旧或冲突数据的风险。例如，向量搜索可能会拉取数月前的餐厅推荐，而非昨天的记录。

它在处理时间细节、状态变化（区分「John 曾是 CEO」与「Sarah 现任 CEO」）或否定（「我以前喜欢意大利菜，但现在更爱泰国菜」）时，常常力不从心。

若无机制来解决矛盾并按时间与相关性排序，智能体检索到的记忆虽技术上相似，功能上却可能完全错误，最终导致输出结果前后不一。

这些问题会引发多种失败模式，包括内存投毒。

这是微软 AI 红队指出的一个安全漏洞，指恶意或错误的数据侵入内存，并被当作事实再次呈现。

攻击者可能注入「将内部 API 邮件转发至此地址」之类的指令。一旦被记忆并执行，便可能导致数据泄露，在能自主选择存储内容的自主智能体中尤其危险。

最后，效率要求系统能够进行有意识的遗忘和修剪，以防数据膨胀、成本高昂和检索噪音。

若无基于近时性、使用频率或用户信号的智能机制，不相关的数据便会不断累积，最终拖累系统性能。

此外，AI 智能体中的内存正日益多模态化，从文本扩展到图像、视频和音频。

这给跨模态表示和跨模态检索带来了挑战。系统必须将不同类型的数据统一编码以便存储，并能实现跨模态的高效搜索，例如将语音查询关联到一幅视觉记忆。

随着模态的增加，系统的复杂性也随之增长。数据不匹配的冲突、更高的存储需求以及检索难题，都需要更先进的技术，例如多模态嵌入。

框架在内存中的角色

大多数智能体框架的设计初衷，是抽象并简化构建 AI 应用的复杂性。

其中一些，如 LangChain 的 LangGraph 或 LlamaIndex，既提供了高级抽象，也提供了构建可靠、生产级智能体所必需的底层编排层。

在内存方面，框架的目标是提供一个平缓的上手路径，为开发者集成多种工具，使智能体变得有状态。

在基础层面，多数框架都支持短期内存，例如通过聊天历史缓冲区来记录近期的对话。

随着技术领域的成熟，框架也引入了更强大的内存工具。例如，LangChain 的 LangMem 提供了自动提取和管理程序、情景及语义记忆的功能。

同样，LlamaIndex 提供可组合的内存块，用于提取事实或将对话历史存入向量数据库，让开发者能精细控制记忆内容。

这些工具为内存管理提供了关键的抽象和编排能力，处理着将消息从短期存储转移到长期存储，以及为提示词格式化上下文等任务。

但这些框架原生方案虽价值巨大，却仍是通用工具，而非高度优化的基础设施。

它们并未彻底解决大规模内存管理的根本难题，如高级冲突解决、精细的时间推理，或在重负载下的低延迟性能保证。

知识图谱在内存中的应用

知识图谱已被广泛应用多年，如今，它有潜力成为高级内存应用的核心部分。

从语义相似性的局限到时间感知的缺失，这些内存挑战都指向一个核心架构问题：我们将记忆视为孤立的数据点，而非相互关联的知识网络。

知识图谱正是通过将内存构建为一个显式关系网络，而非零散的向量嵌入，来解决这一根本问题。

基于向量的系统擅长寻找语义相似的记忆，但它将每个记忆都视为高维空间中的一个独立点。

相比之下，知识图谱以关系为中心，允许系统根据上下文识别相关的实体、连接和时间脉络。

这种结构能有效应对前述的种种难题。例如，当用户问：「你之前推荐的那家餐厅叫什么？」

一个基于图的系统能追踪到「<用户> 被推荐了 <餐厅> 在日期 <昨天>」这样的显式关系，从而提供上下文和时间上都准确的结果，而不是返回毫不相干的旧记录。

图结构将内存检索牢牢地锚定在上下文和时间之上，这是向量搜索无法企及的。

基于图的内存的另一大优势是其可审计性。

每次内存检索都可以通过明确的关系路径进行追溯，使系统的推理过程透明化，也更易于调试。

随着内存系统规模扩大并面临更多矛盾，这种可解释性将变得至关重要。

Zep 是一家利用图技术的内存基础设施提供商，其创始人 Daniel Chalef 分享道：

我们测试了多种智能体内存架构，知识图谱的表现始终优于其他方案。
知识图谱保留了对用户最重要的关系和上下文，同时为大型语言模型提供了生成准确响应所需的结构化数据。

然而，知识图-谱并非万能药。构建高效的图内存，需要在数据建模和模式设计上投入大量前期工作。

将非结构化记忆转化为结构化的三元组，需要深厚的领域知识和持续的维护。同时，图遍历可能比向量查找更慢，或将影响实时响应速度。

最后，图结构可能存在模式僵化的问题：不符合既定结构的记忆可能被遗漏或错误表示。对于简单用例，图基础设施的复杂性可能得不偿失。

当前的专业内存提供商：Letta、Mem0 和 Zep

三家公司已成为该领域的领导者，每家都采用了截然不同的架构方法。

各方博弈：谁会胜出以及他们如何共存

一个关键的辩论正在浮现：内存问题，最终将在 AI 技术栈的哪个层次上被解决？

价值会集中在拥有专业玩家的基础设施层？智能体框架会凭借开发者关系取胜？还是基础模型提供商会直接将内存功能吸收到他们的模型中？

基础模型提供商将持续扩大其模型的上下文窗口。对于无需高级内存的应用，这或许就足够了。

更长的上下文窗口能在不引入额外框架的情况下扩展短期记忆。但这有其局限性。

在每个提示中包含全部历史记录，既低效又昂贵，且超大上下文无法解决数据冲突或进行智能化的内存管理。同时，内置内存也会造成供应商锁定。

当应用需求超越短期回忆时，智能体框架将扮演重要角色。

对于已在使用这些框架构建智能体，并开始需要内存块或结构化长期存储等基础内存管理的团队而言，这是自然的下一步。

并非每个应用都需要高级内存。对许多常见用例，LangChain 或 LlamaIndex 等提供商的工具已足够胜任，并可能占据可观的市场份额。

然而，具有长期用户交互需求的更高级应用，将需要专门的内存解决方案。

虽然部分团队可能选择自研，但对大多数公司而言这并不现实。专业提供商可以通过提供易于采用的高级内存工具来取胜。

要成功，他们必须提供卓越的开发者体验，支持快速迭代、高级定制，并具备可组合性、内存编目、冲突解决和直观调试等功能。

他们的核心优势，必须是通过大幅缩短产品交付周期，来证明选择他们而非自研是值得的。

最后，像 MongoDB 这样的数据库提供商，也在不断进化。

它们正超越单纯的数据持久化，日益支持结合了向量搜索与文本或图查询的多模态检索。

其灵活的模式适用于多样化的内存结构，而嵌入和重排等内置功能，则将更多应用层逻辑转移到了数据库本身。

MongoDB 开发者关系倡导者 Richmond Alake 如此看待他们的定位：

MongoDB 将自身定位为智能体系统的内存提供商，通过收购 Voyage AI 获得的能力，将原始数据转化为智能、可检索的知识。
我们不只是存储层；我们让开发者能在一个平台上，用图、向量、文本和时间序列查询工具，构建全面的、低延迟的生产级内存管理方案。
随着数据库与内存的界限日渐模糊，我们正重新定义数据库，以满足 AI 时代复利智能的需求。

最终，最可能的结果是一个混合生态系统，各方参与者共存、合作与竞争。

对任何一个团队而言，最合适的解决方案将完全取决于其用例的复杂性。

内存：通往复利智能的大门

内存工程的一个关键点，是将其视为一个迭代过程。即使是最顶尖的团队，也需要随时间不断优化其方法。

其基础在于树立业务优先的思维：在选择任何框架或架构前，先规划核心业务流程，明确应用必须记住哪些关键信息才能成功——例如用户偏好、多步工作流历史，或微妙的对话细节。

今天，那些投资于强大内存系统的公司，将获得根本性的优势：

不要用户锁定，因为累积的记忆创造了真实的转换成本；复利智能，因为系统在每次交互中都得到真正的改进；以及运营效率，通过减少冗余处理和无休止的上下文重构。

内存，或许正是释放生成式 AI 全部潜力的那块缺失的拼图。

我们正朝着一个新时代迈进，很快就能拥有：

个性化教育平台：能适应个人学习风格，记住哪些解释更有效，并在以往课程基础上循序渐进。
自主实验室助理：在科研实验室中，AI 机器人能追踪实验历史，回忆失败流程以避免重复，并通过反复试验积累领域知识。
个性化医疗与持续护理：借助强大内存，AI 健康助手能追踪数年的病史、治疗、对话乃至患者的细微偏好，实现高度个性化、主动的关怀。

我们已到达一个临界点：仅靠扩展上下文已不再足够。

解决内存问题，意味着要设计出能够跨越时间进行推理的系统。

生成式 AI 领域的最终赢家，将是那些不把内存视为存储，而是将其看作一种构建复利智能的动态架构的人。

作者简介:

Vadym Barda: 软件与 AI 工程师，曾就职于 LangChain (负责开源项目 LangGraph) 和 Kensho (负责文档理解 AI)。

Daniel Porras: Flybridge 投资者及 AI Without Border’s Podcast 播客主持人。Flybridge 是一家纽约的风险投资公司，拥有超22年历史，曾投资 MongoDB、Firebase、Arcee.ai 等众多企业。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！