编者按:AI的未来,不仅在于更大的模型,更在于更聪明的记忆。此文是近期我读到关于AI内存领域最系统、最富洞见的剖析之一,清晰指出了技术深水区的挑战与机遇。
Memex 2.0:内存,实现真正智能所缺失的拼图
DANIEL & VADYM BARDA
2025年7月17日
我们都曾有过这样的经历:你向 AI 助手询问上周推荐的食谱,它却回答:「抱歉,什么食谱?」
更糟的是,它会幻觉出你们从未讨论过的内容。即便上下文窗口已能扩展到数百万 token,多数 AI 智能体仍饱受功能性失忆之苦。
但假如内存能将这些健忘的程序,转变为能够学习、个性化并随时间演化的自适应伙伴呢?
人工智能最有前途的应用,尚未到来。真正的个性化与长期效用,完全取决于智能体记忆、学习和适应的能力。
随着基础模型、智能体框架和专用基础设施的飞速发展,生产就绪的内存系统终于崭露头角。
对于创始人和工程师而言,这比以往任何时候都更加重要。当所有人都在问:「护城河在哪里?」内存,或许就是答案。
它能创造深度个性化的体验,并随时间产生复利效应,从而建立用户锁定,提高转换成本。
随着内存对智能体性能变得至关重要,一个新问题浮出水面:价值最终将沉淀在技术栈的哪一层?
是基础模型提供商从根源上攫取所有价值?还是紧握开发者关系的智能体框架最具优势?
亦或是,这个挑战本身极其复杂,真正的赢家将是一类专注于内存的、全新的专用基础设施提供商?
今天,AI 领域对内存的追求,呼应着一个古老的梦想。
1945年,万尼瓦尔·布什设想了「Memex」—— 一台桌面大小的机器,旨在通过创建信息的关联轨迹来增强人类记忆。
它连接思想的方式,正如人脑自然地连接概念。那个愿景在当时过于超前,但如今,所有拼图正逐渐聚合,让实现那个梦想终成可能。
在这篇文章中,我们将深入剖析:
内存问题为何悬而未决,又为何如此难以解决。 新兴的参与者与架构:框架、基础设施和模型提供商。 价值最有可能在技术栈的哪个层面集中。 避免失败模式和隐私陷阱的可行策略。
内存的剖析
传统应用早已能够存储用户数据和状态,但生成式 AI 带来了一个全新的内存挑战:如何将非结构化的交互,转化为可操作的上下文。
正如 MongoDB 开发者关系倡导者 Richmond Alake 所言:
AI 中的内存并非全新概念——像语义相似性和向量数据等理念已存在多年——但它在现代 AI 智能体中的应用,才是真正的革命。
智能体正普及于各类软件中,而我们当下使用内存以实现个性化、学习和适应的方式,代表了一次全新的范式转变。
如今的目标,已不只是存储数据,更是在正确的时间,检索到正确的上下文。
智能体中的内存采用分层工作模式,它结合了快速、短暂的短期内存与结构化、持久的长期内存。
短期内存,也称工作内存,负责保存近期的对话上下文,如同计算机的 RAM。
它能确保对话的连贯性,但受限于智能体的上下文窗口。一旦填满,旧的交流内容便会被丢弃、总结或迁移至长期内存。
长期内存,则跨越不同会话,提供持久的连续性,使智能体能建立长久的理解,并支持复利智能。
它由模块化的「内存块」构成,具体包括:
语义内存:存储事实,如用户偏好或关键实体。这些信息可被预定义(「用户的名字是 Logan」)或动态提取(「用户有一个姐姐」)。
情景内存:回忆过去的交互,以指导未来的行动(例如,「上次用户要求摘要更简洁一些」)。
程序内存:记录成功或失败的流程步骤,以便持续改进(「预订航班的流程是:先确认日期、目的地,然后是乘客数量」)。
一个强大的内存系统远不止于存储,它还需要机制来决定保留什么、如何检索,以及何时更新或覆写。
管理内存的一项关键要求,是在存储的数据内部建立更新机制。
这使得智能体能用新信息修改或取代旧记忆,从而浮现出超越常规文本匹配或相关性分数的、真正有价值的细节。
大规模实现内存的挑战
实现强大的内存系统,并非简单存储聊天记录那么轻松;它带来一系列挑战,并随应用规模的扩大而愈发严峻。
真正的核心挑战,在于执行所谓的内存管理。
首要瓶颈是大型语言模型上下文窗口的实际限制与成本。模型要利用内存,就必须将数据载入上下文。
尽管窗口限制已大幅扩展,例如 Gemini 的 100 万 token,但终究有限。计算成本呈二次方级增长,使超大上下文在经济上对许多应用并不可行。
DeepMind 的研究也指出,即便 1000 万 token 的上下文在技术上可行,也缺乏商业上的经济性。
除了容量,如何检索到正确信息,是另一项重大挑战。
作为许多检索增强生成系统核心的简单语义相似性,常常无法捕捉到真实的上下文关联,且随着内存库的膨胀,问题愈发严重。
累积的交互增加了提取出陈旧或冲突数据的风险。例如,向量搜索可能会拉取数月前的餐厅推荐,而非昨天的记录。
它在处理时间细节、状态变化(区分「John 曾是 CEO」与「Sarah 现任 CEO」)或否定(「我以前喜欢意大利菜,但现在更爱泰国菜」)时,常常力不从心。
若无机制来解决矛盾并按时间与相关性排序,智能体检索到的记忆虽技术上相似,功能上却可能完全错误,最终导致输出结果前后不一。
这些问题会引发多种失败模式,包括内存投毒。
这是微软 AI 红队指出的一个安全漏洞,指恶意或错误的数据侵入内存,并被当作事实再次呈现。
攻击者可能注入「将内部 API 邮件转发至此地址」之类的指令。一旦被记忆并执行,便可能导致数据泄露,在能自主选择存储内容的自主智能体中尤其危险。
最后,效率要求系统能够进行有意识的遗忘和修剪,以防数据膨胀、成本高昂和检索噪音。
若无基于近时性、使用频率或用户信号的智能机制,不相关的数据便会不断累积,最终拖累系统性能。
此外,AI 智能体中的内存正日益多模态化,从文本扩展到图像、视频和音频。
这给跨模态表示和跨模态检索带来了挑战。系统必须将不同类型的数据统一编码以便存储,并能实现跨模态的高效搜索,例如将语音查询关联到一幅视觉记忆。
随着模态的增加,系统的复杂性也随之增长。数据不匹配的冲突、更高的存储需求以及检索难题,都需要更先进的技术,例如多模态嵌入。
框架在内存中的角色
大多数智能体框架的设计初衷,是抽象并简化构建 AI 应用的复杂性。
其中一些,如 LangChain 的 LangGraph
或 LlamaIndex
,既提供了高级抽象,也提供了构建可靠、生产级智能体所必需的底层编排层。
在内存方面,框架的目标是提供一个平缓的上手路径,为开发者集成多种工具,使智能体变得有状态。
在基础层面,多数框架都支持短期内存,例如通过聊天历史缓冲区来记录近期的对话。
随着技术领域的成熟,框架也引入了更强大的内存工具。例如,LangChain 的 LangMem
提供了自动提取和管理程序、情景及语义记忆的功能。
同样,LlamaIndex 提供可组合的内存块,用于提取事实或将对话历史存入向量数据库,让开发者能精细控制记忆内容。
这些工具为内存管理提供了关键的抽象和编排能力,处理着将消息从短期存储转移到长期存储,以及为提示词格式化上下文等任务。
但这些框架原生方案虽价值巨大,却仍是通用工具,而非高度优化的基础设施。
它们并未彻底解决大规模内存管理的根本难题,如高级冲突解决、精细的时间推理,或在重负载下的低延迟性能保证。
知识图谱在内存中的应用
知识图谱已被广泛应用多年,如今,它有潜力成为高级内存应用的核心部分。
从语义相似性的局限到时间感知的缺失,这些内存挑战都指向一个核心架构问题:我们将记忆视为孤立的数据点,而非相互关联的知识网络。
知识图谱正是通过将内存构建为一个显式关系网络,而非零散的向量嵌入,来解决这一根本问题。
基于向量的系统擅长寻找语义相似的记忆,但它将每个记忆都视为高维空间中的一个独立点。
相比之下,知识图谱以关系为中心,允许系统根据上下文识别相关的实体、连接和时间脉络。
这种结构能有效应对前述的种种难题。例如,当用户问:「你之前推荐的那家餐厅叫什么?」
一个基于图的系统能追踪到「<用户> 被推荐了 <餐厅> 在日期 <昨天>」这样的显式关系,从而提供上下文和时间上都准确的结果,而不是返回毫不相干的旧记录。
图结构将内存检索牢牢地锚定在上下文和时间之上,这是向量搜索无法企及的。
基于图的内存的另一大优势是其可审计性。
每次内存检索都可以通过明确的关系路径进行追溯,使系统的推理过程透明化,也更易于调试。
随着内存系统规模扩大并面临更多矛盾,这种可解释性将变得至关重要。
Zep 是一家利用图技术的内存基础设施提供商,其创始人 Daniel Chalef 分享道:
我们测试了多种智能体内存架构,知识图谱的表现始终优于其他方案。
知识图谱保留了对用户最重要的关系和上下文,同时为大型语言模型提供了生成准确响应所需的结构化数据。
然而,知识图-谱并非万能药。构建高效的图内存,需要在数据建模和模式设计上投入大量前期工作。
将非结构化记忆转化为结构化的三元组,需要深厚的领域知识和持续的维护。同时,图遍历可能比向量查找更慢,或将影响实时响应速度。
最后,图结构可能存在模式僵化的问题:不符合既定结构的记忆可能被遗漏或错误表示。对于简单用例,图基础设施的复杂性可能得不偿失。
当前的专业内存提供商:Letta、Mem0 和 Zep
三家公司已成为该领域的领导者,每家都采用了截然不同的架构方法。
各方博弈:谁会胜出以及他们如何共存
一个关键的辩论正在浮现:内存问题,最终将在 AI 技术栈的哪个层次上被解决?
价值会集中在拥有专业玩家的基础设施层?智能体框架会凭借开发者关系取胜?还是基础模型提供商会直接将内存功能吸收到他们的模型中?
基础模型提供商将持续扩大其模型的上下文窗口。对于无需高级内存的应用,这或许就足够了。
更长的上下文窗口能在不引入额外框架的情况下扩展短期记忆。但这有其局限性。
在每个提示中包含全部历史记录,既低效又昂贵,且超大上下文无法解决数据冲突或进行智能化的内存管理。同时,内置内存也会造成供应商锁定。
当应用需求超越短期回忆时,智能体框架将扮演重要角色。
对于已在使用这些框架构建智能体,并开始需要内存块或结构化长期存储等基础内存管理的团队而言,这是自然的下一步。
并非每个应用都需要高级内存。对许多常见用例,LangChain 或 LlamaIndex 等提供商的工具已足够胜任,并可能占据可观的市场份额。
然而,具有长期用户交互需求的更高级应用,将需要专门的内存解决方案。
虽然部分团队可能选择自研,但对大多数公司而言这并不现实。专业提供商可以通过提供易于采用的高级内存工具来取胜。
要成功,他们必须提供卓越的开发者体验,支持快速迭代、高级定制,并具备可组合性、内存编目、冲突解决和直观调试等功能。
他们的核心优势,必须是通过大幅缩短产品交付周期,来证明选择他们而非自研是值得的。
最后,像 MongoDB 这样的数据库提供商,也在不断进化。
它们正超越单纯的数据持久化,日益支持结合了向量搜索与文本或图查询的多模态检索。
其灵活的模式适用于多样化的内存结构,而嵌入和重排等内置功能,则将更多应用层逻辑转移到了数据库本身。
MongoDB 开发者关系倡导者 Richmond Alake 如此看待他们的定位:
MongoDB 将自身定位为智能体系统的内存提供商,通过收购 Voyage AI 获得的能力,将原始数据转化为智能、可检索的知识。
我们不只是存储层;我们让开发者能在一个平台上,用图、向量、文本和时间序列查询工具,构建全面的、低延迟的生产级内存管理方案。
随着数据库与内存的界限日渐模糊,我们正重新定义数据库,以满足 AI 时代复利智能的需求。
最终,最可能的结果是一个混合生态系统,各方参与者共存、合作与竞争。
对任何一个团队而言,最合适的解决方案将完全取决于其用例的复杂性。
内存:通往复利智能的大门
内存工程的一个关键点,是将其视为一个迭代过程。即使是最顶尖的团队,也需要随时间不断优化其方法。
其基础在于树立业务优先的思维:在选择任何框架或架构前,先规划核心业务流程,明确应用必须记住哪些关键信息才能成功——例如用户偏好、多步工作流历史,或微妙的对话细节。
今天,那些投资于强大内存系统的公司,将获得根本性的优势:
不要用户锁定,因为累积的记忆创造了真实的转换成本;复利智能,因为系统在每次交互中都得到真正的改进;以及运营效率,通过减少冗余处理和无休止的上下文重构。
内存,或许正是释放生成式 AI 全部潜力的那块缺失的拼图。
我们正朝着一个新时代迈进,很快就能拥有:
个性化教育平台:能适应个人学习风格,记住哪些解释更有效,并在以往课程基础上循序渐进。
自主实验室助理:在科研实验室中,AI 机器人能追踪实验历史,回忆失败流程以避免重复,并通过反复试验积累领域知识。
个性化医疗与持续护理:借助强大内存,AI 健康助手能追踪数年的病史、治疗、对话乃至患者的细微偏好,实现高度个性化、主动的关怀。
我们已到达一个临界点:仅靠扩展上下文已不再足够。
解决内存问题,意味着要设计出能够跨越时间进行推理的系统。
生成式 AI 领域的最终赢家,将是那些不把内存视为存储,而是将其看作一种构建复利智能的动态架构的人。
作者简介:
Vadym Barda: 软件与 AI 工程师,曾就职于 LangChain (负责开源项目 LangGraph) 和 Kensho (负责文档理解 AI)。
Daniel Porras: Flybridge 投资者及 AI Without Border’s Podcast 播客主持人。Flybridge 是一家纽约的风险投资公司,拥有超22年历史,曾投资 MongoDB、Firebase、Arcee.ai 等众多企业。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!