万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031

“多模态长记忆在「看得准、找得到、想得清」三大环节的底层逻辑与工程避坑指南。 ”

作者丨小雷哥

编辑丨岑峰

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031图3

过去一年，的大模型技术演进中，“长上下文”成为了资本与技术角力的暴风眼。

从 128K 到 1M，再到号称“无限长”的窗口，数字的跳跃给用户带来了一种“AI 已经博闻强识”的错觉。但行业内一直存在一个巨大的认知盲区：拥有超长上下文，是否等同于拥有了可靠的长程记忆？

多模态长程记忆，究竟是通往“数字生命”的最后一块拼图，还是目前技术架构下难以逾越的雷区？

本期 GAIR Live 线上圆桌邀请到了两位极具代表性的专家：

任玺谕香港科技大学博士生、全球首个多模态长记忆评测标准 MemLens 主导作者；

张源丘脑智能 CEO、Omni-Mem 框架负责人

他们一位手持“最严苛的尺子”对全球 27 个顶级模型进行了深度体检，一位在长程记忆的产业一线，总结出了最真实的实战药方。在这场硬核对话中，他们拆解了多模态长记忆落地的三道生死关：看得准、找得到、想得清。

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031图4

“看得准”：从 Caption 转向“证据指纹”的范式重构

讨论指出，目前主流的 Caption（图像摘要）方案是长记忆失效的源头。

任玺谕通过实验证明，Caption 丢失了登机牌日期、票据金额等关键细节，且由于系统无法预知未来的问题，这种入库时的盲目压缩会导致不可逆的信息丧失。

张源提出的工程解法是构建“结构化证据链”：不再存储原始像素或一段文字，而是存储视频的“证据指纹”和高保真记忆单元。通过模仿人类海马体与皮质层的协作，将关键视觉特征（人脸、属性、空间关系）锁死在语义空间中，通过“锚定-分级压缩-定期校验”体系，保证了人生级记忆在长达数年的周期内不变形。

“找得到”：检索优先级高于推理，跨模态路由是命门

圆桌得出了一个颠覆性的结论：多模态长记忆的瓶颈不在于模型的“推理层”，而在于“检索层”。

MemLens 的实验显示，只要人工替模型找对证据，准确率能从 30% 飙升至 90% 以上。

解决这一问题的关键在于识别用户 Query 中的跨模态线索。

张源分享了丘脑智能的“三级防御体系”：首先将问题拆解为文本、视觉、时序意图谱，随后进行“线索模态路由”，定向到对应引擎。

这不仅将准确率从 20% 提升至 60% 的可用线，更从源头上缓解了长上下文下的“稀释效应”与“检索过敏”。

“想得清”：终结“过期记忆”的背叛与拒答能力的回归

在长记忆场景中，幻觉呈现出两种恶性新形态：状态更新失败（KU）与拒答退化（AR）。

任玺谕警示，经过针对性微调的模型往往变得“盲目自信”，即便证据不足也会为了获得奖励而编造答案。

张源则强调，记忆系统必须“以用户为中心”，而非“以事实为中心”。丘脑智能通过为记忆打上时间戳、置信度和证据链标签，建立了“时序优先”的加权仲裁规则。同时，将检索证据与生成解耦，如果检索引擎给出的分值过低，系统必须优雅地“说不”，以此守住信任的生命线。

未来展望：2026 年的“皮层+海马体”生态

两位嘉宾预判，未来的产业分工将极其明确：

基座模型（LMM）负责处理瞬时、精细感知的“大脑皮层”工作；而记忆框架厂商负责管理长程、结构化信息的“海马体”工作。2026 年，行业将诞生标准化的“视觉证据交接接口”。

随着具身智能任务的日益复杂，多模态长记忆将面临从“单帧静态记忆”向“连续动作序列记忆”跨越的尖锐挑战。这要求模型层在时序视觉表示上取得突破，同时要求工程侧通过 Hybrid 混合架构，平衡算力开销与保真度。

以下是此次圆桌讨论的精彩分享，雷峰网进行了不改原意的编辑整理：

岑峰：各位观众晚上好，欢迎来到 GAIR Live 线上圆桌。过去一年，大模型领域最卷的参数之一，就是上下文的长度。然而现实中，AI 虽然过了所有书，却仍记不起昨天丢在哪里的钥匙；看遍监控录像，也难以确定特定人物的身份。

在多模态长程记忆领域，我们正处于从实验室 Demo 向国民级应用跨越的深水区。今天我们讨论的主题是：多模态长程记忆为何落地难？为此我们邀请到了两位代表性专家：

任玺谕，香港科技大学博士生，全球首个多模态长程记忆评测标准 MemLens 的主导作者；

张源，丘脑智能 CEO，曾深耕自动驾驶与具身智能，致力于研发 Omni-Mem 框架，重塑 AI 记忆范式。

首先请两位嘉宾介绍一下自己以及该领域的最新进展，并回答：为什么多模态记忆值得作为一个独立命题讨论？

任玺谕：我是任玺谕，研究方向是多模态大模型的长期记忆。我们主导了 MemLens 评测基准，将 27 个视觉语言模型与 7 个记忆智能体放在同一多模态数据维度下，进行了完整的深度对照实验。

MemLens 不仅仅是排行榜，更是一次深度诊断，旨在厘清记忆系统失效的具体原因。多模态记忆绝非长文本的简单分支。在日常交互中，用户拍摄的白板、登机牌或体检报告不仅是图片，更是核心证据。纯文字记忆系统在长达数月的对话中，会丢失大部分真实发生过的信息。

多模态记忆的难点在于图像翻译的“有损性”。长文压缩去掉的是冗余，但图像压缩往往会丢掉证据。

更要命的是，系统在入库瞬间无法预知用户三个月后会问什么，因此难以决定该保留哪些视觉细节。现有的评测标准（如 Locomo 或 LongMemEval）大多将图像约化为纯文本，而我们认为视觉证据不可被简单文本化，这便是多模态记忆必须作为独立命题研究的原因。

张源：我是张源，丘脑智能 CEO。我们是国内目前唯一针对多模态提供长记忆解决方案的公司。

关于多模态长记忆的必要性，我从产业视角给出三个理由：

首先，AI 进入物理世界与的交互入口，不管是具身智能、智能座舱、智能硬件等，所有的交互入口天然是多模态的；

其次，AI 与人类交互的信息流，以及人类接收到的带宽最高、最接近第一性原理的信息也是多模态的；

最后，AI 在执行长程任务时，无法绕开多模态记忆独立存在。我们从产业需求中看到了巨大的机会，因此认为多模态长记忆值得独立深耕。

看得准：

视觉证据的颗粒度与工程保真

岑峰：感谢张总。刚才玺谕和张总分别从学术与产业视角分享了见解，两位达成了一个核心共识：多模态长记忆已从“可选功能”演变为“刚需底座”。

岑峰：在 MemLens 的论文中有一个关键发现：基座模型（如 Qwen）在被集成进记忆 Agent 后，性能从 49% 暴跌至 15%，整整损失了 34%。这说明许多记忆在存入的瞬间就已经“变质”了。玺谕，你评测了 27 个模型后，发现这 34% 的断崖式下跌究竟丢在了哪些环节？

任玺谕：这种大幅度的性能下降并非因为模型变笨了，而是证据在写入阶段就已“蒸发”。问题主要出在写入过程而非后续的推理环节。

我认为主要有三个层面：首先，Memory Agent 为实现长效存储，在写入时会将图片过度压缩；其次，Caption 方案往往只保留了图像大意，丢失了数量、属性、空间关系等细粒度信息；第三，当用户后期追问时，模型无法调取原始像素，此时它已彻底丢失了最初的视觉信息。

最关键的是，这种压缩发生在系统无法预知未来需求的情况下，入库那一刻模型无法断定三个月后用户是否会询问登机牌上的某个具体数字。本质上，信息在被模型“看清”之前，就已经被压缩抹除了。

岑峰：既然 Caption 方案常丢失登机牌日期、票据金额等细节，你们如何通过“信息提取”这一维度，精准证明视觉证据是在写入环节丢失的？

任玺谕：我们通过三步逻辑将猜测转化为可证明的结论。

第一步是构建“图文依赖”。在 MemLens 论文中，我们设计了两跳（Two-hop）的逻辑问题，要求模型必须先从图片识别实体，再从文本取回属性。通过高度抽象的描述（如将“金门大桥”写成“图中这座桥”），强制模型结合图文寻找答案。

第二步是设立对照实验。对同一题目，我们分别提供原图和模型生成的 Caption。结果显示，纯文本系统使用 Caption 的表现与多模态系统几乎一致，证明瓶颈确实卡在“压成 Caption”这一步。

第三步是错误归因。我们逐条标注了错误原因，发现近 90% 的错误源于“没看到”而非“没想通”。即便在提供原图的测试中，模型也难以在长上下文中精准检索到票据金额或空间位置关系。因此，长上下文场景下，模型的瓶颈在于“眼睛”而非推理。

岑峰：转向工程视角。张总，丘脑智能提倡“人生级上下文”，面对海量数据，如果无法全量存储原始视频，你们如何在工程上实现证据的保留？

张源：全量存储原始视频在成本和检索效率上都是不可持续的。我们的策略是将证据定义从“原始像素”升级为“结构化证据链”。

首先，我们通过噪声过滤与时空对齐算法处理原始证据。比如监控录像中一小时的静止画面会被压缩为一帧，仅过滤出包含丰富信息的“重点帧”。随后，我们利用强多模态理解模型对核心帧进行无损特征提取，保留颜色、纹理、空间关系、人脸等视觉证据，并将其与原始像素绑定。

其次，我们模仿人类海马体与皮质层的编码、整合方式，将原始信息按认知地图进行语义结构化，转化为可检索的“证据指纹”。例如，系统存入的不是一段票据视频，而是其结构化描述，需要时直接从绑定特征中提取文本，而非回放视频，从而将存储成本降低两个量级。

最后，我们实施记忆分级策略：高频访问的关键证据（如用户偏好、重要票据）进入“热存储”，低频背景数据则进入“冷存储”并只保留索引。这种方案既能保证证据的可追溯性，也实现了人生级上下文的工程落地。

岑峰：任务跨度拉长到“人生级”时，如何防止特征在不断压缩存储中产生语义失效或变形？

张源：这确实是多模态长记忆的核心挑战。我们放弃了“存更多数据”的思维，转而追求“存住有效证据”。

首先，我们引入了状态更新与遗忘机制。例如，我可能一直特别爱吃辣，但是我最近感冒了，嗓子不太舒服，最近不太能吃辣，系统会通过状态更新，让最新的用户偏好覆盖旧状态，并遗忘提及频率极低的非重要信息。

其次，我们研发了 E2P（Embedding to Prefix）技术框架。其原理是通过强理解生成高维语义，将关键信息（如机票金额、车牌号）锁死在语义空间中作为锚点。随后的压缩操作不会破坏这些语义锚点，后续检索与推理均以锚点为准，从而绕过传统的 Embedding 损耗。

在产业化实操中，我们针对不同场景制定了差异化策略。在缺乏图片视频的陪伴场景中，我们以去噪代替压缩，保留 80% 的原始证据；在复杂多模态场景下，我们采用分级压缩：对核心语义特征进行无损压缩，对次要视觉特征（如背景纹理）进行有损压缩，确保关键证据不变形。

最后，我们建立了语义一致性校验机制去防止特征漂移。系统会定期对记忆单元进行“体检”，利用当前模型重新理解压缩特征。若发现偏差较大，则触发记忆修复流程，重新提取并锚定关键信息，防止特征随时间产生漂移。

也就是说，我们会通过“锚定-分级别压缩-校验”这套工程化体系，我让语义特征在整个生命周期里面都保持相对的稳定，不会因为压缩而失效。

找得到：

跨模态证据的“大海捞针”与检索架构

岑峰：刚才玺谕和张总聊透了存储写入环节的问题。但在工程实现上，下一步面临的情况更为严峻：即使证据被原封不动地存入，当上下文达到“人生级”的海量规模时，AI往往会“看走眼”。玺谕在 MemLens 中做了一个极具冲击力的实验：只要人工找对证据直接喂给模型，准确率会瞬间拉回到 90%以上。

岑峰：这说明模型的推理层基本没有问题，瓶颈在于模型很难在跨模态的数据大海中捞到那根“针”。玺谕，这是否说明行业过去过于迷信长文本推理，而忽视了跨模态检索才是真正的命门？

任玺谕：没错，我们将这一现象量化到了极致。我们得到的结论是，其实模型的推理层并没有问题，有问题的恰恰是检索。

首先，我们的实验结果显示，多模态跨会话推理（MSR）是目前所有系统共同的天花板，绝大多数系统得分低于 30%，即便表现最好的Kimi 也不过 40 分。

第二，我们通过系统性诊断发现，只要我们替模型完成找证据这一步，GPT-4o 和 Gemini Pro 1.5的准确率能立即飙升至 90%以上。这有力地证明了行业过去将大量资源砸在提升长文本推理能力上，方向可能产生了偏差。

我们认为真正的挑战在于跨模态检索。我们通过归因分析将检索问题分为两类：一是根本没找到证据（Retrieval Failure），二是找对了证据但依然答错。

不同的 agent 其实会有不同的问题，这说明找得到和想得清这两层是可以能够被分开诊断的。为了精准诊断，我们在论文中将记忆系统拆解为五大能力维度：

1.信息提取（IE）：基础的直接信息检索。

2.跨会话推理（MSR）：目前最核心的瓶颈，考察跨 Session 的逻辑整合。

3.知识更新（KU）：基于用户偏好动态管理历史信息。

4.时序推理（TR）：处理与时间先后相关的逻辑。

5.拒答能力（AR）：检测模型在证据不足时能否正确拒绝，防止自信地胡说（幻觉）。

岑峰：很多人认为只要无限拉长窗口，让模型自己看所有历史就能解决检索问题。但 MemLens 发现，当历史长达 128K时，准确率反而下降了 13%。这种“证据稀释”现象为何在多模态场景下更严重？

任玺谕：长窗口是一个陷阱，它解决了“装得下”，却解决不了“找得准”。实验显示，窗口越长，模型反而变得更加“虚假自信（False Confidence）”。特别是在“拒答能力（AR）”上，随着窗口增长，模型在缺乏证据时拒绝回答的比例显著下降，转而自信地答错。

多模态场景下这种现象更严重，原因有二：

首先，视觉信息（图片或视频）占用的 Token量极大，几张图片就能把信噪比彻底压垮，导致真实证据被淹没。

其次，在压缩后的视觉编码上进行检索，本身就比在原始文本上检索更难且更不可靠。文本检索中常见的“Lost in the Middle（迷失中间）”现象在图文混合场景下被进一步放大了。

岑峰：转向工程落地，张总，既然检索是命门，丘脑智能如何识别用户 Query 中哪些线索隐藏在文本中，哪些隐藏在图像里？

张源：我非常激动看到 MemLens 通过科学实验论证了基模与记忆企业的分工。

我们之前在融资或者在跟投资人交流的时候，我们经常被问到，如果基模做这个事，你们会怎么办？Benchmark里对我非常有价值的一个点就是，通过真实的实验证明了基模和记忆企业是有分工的，上下文窗口变长不代表记忆体验变好。

如果之后再被问到这个问题，我会把实验结果和结论告诉他们：基模一定会做，上下文窗口一定会越来越长，但不代表他们做了就能解决记忆的问题。

针对跨模态线索识别，我们的解法是在检索前引入“跨模态意图拆解”，将 Query 从一句话拆解为多模态意图图谱。具体分为三步：

首先，利用多模态理解模型将用户的自然语言拆解为文本线索、视觉线索、时序线索和属性线索。例如，用户问“上次在某咖啡馆拍的穿蓝衣服照片里，我手里拿着什么？”，我们会拆解出地点（文本）、服装（视觉）和时间（时序）。

其次，进行“线索模态路由”，定向到对应的索引引擎。文本线索走语义索引，图像特征走视觉索引，时间属性走时间轴。这避免了盲目遍历所有数据带来的 Token浪费，效率提升了一个量级。

最后，在推理前进行“证据融合”。将不同引擎召回的零散片段进行对齐，拼成完整的证据链交给模型。

岑峰：你提到的这个包含地点、服装、时间的问题很有意思。你们的系统遇到过哪些稀奇古怪的测试问题吗？

张源：我们做过一个“找钥匙”的趣味测试。

通过一段家里的监控视频，用户问钥匙最后出现在哪。系统识别出钥匙曾出现在一个穿黑衣服女生的手里，随后她坐在沙发上，钥匙不小心滑入了沙发缝。

AI最终不仅给出了时间，还建议用户去沙发附近寻找。这种涉及复杂空间互动和时序逻辑的问题，正是我们想攻克的方向。

岑峰：下一个问题：面对长历史带来的“检索过敏”，丘脑智能有什么独特的算法防止模型被无关内容带偏？

张源：我们在做纯文时经常遇到类似问题：无关信息多、上下文长、模态丰富后噪声更大，容易导致幻觉或答非所问。

我们的抗过敏方案是：用高保真的原始证据替代模型抽取后的数据。前面提到，我们没有像其他记忆系统那样大幅压缩原始信息，而是先锚定语义，并保留一些原始证据。

具体做法是：先做意图驱动的多级召回，从源头缩小检索范围。传统检索是全量初筛，比如在图书馆里一本书一本书地遍历。而我们如果是纯文本就做场景整合，多模态则做意图拆解，把用户问题限定在特定时间、场景、主题里，再定向召回。比如用户问去年生日的蛋糕照片，我们就把时间锁定在去年生日前后，只在这个范围内召回相关内容，无关聊天和图片不会进入候选池，从源头减少噪声。

第二，做相关性重排序和负样本对比，剔除似是而非的信息。我们有一个多模态相关模型做重排序，不仅看语义相似度，还对比用户意图和记忆上下文。比如用户要找蓝色衣服，系统可能召回深蓝色外套和蓝色背景，这时就需要做区分，避免背景噪声带偏结果。

第三，证据可信度校验，防止幻觉式引用。模型推理前，我们会给证据一个可信度分数，只有高于阈值才会被引用。如果召回内容中没有可靠证据，就回答不知道，而不是强行编造答案。

这和玺谕他们提到的拒答问题有关。拒答在学术上是为了保证可信。总结来说，我们不是多召回再过滤，而是先缩小范围，再精准排序，最后做可信度校验的这样一套三级防御体系。

想的清：

终结“逻辑雪球”与状态更新的信任挑战

岑峰：拒答与“自信的胡说”是大模型领域讨论极多的痛点。如果说感知层面的问题可以通过“看得准”和“找得到”来缓解，那么最后一关则直指“信任”。

在长记忆场景下，大模型幻觉的形态发生了变化。人类拥有自然的遗忘与更新机制，能以最新知识覆盖旧信息。但 AI往往会出现一种尴尬：即便用户的偏好已发生改变（如从喜欢苹果变为喜欢猕猴桃），系统依然固守旧记忆。这种“想不清”导致的自信胡说，是用户最难接受的。

岑峰：玺谕，你在MemLens 中定义的“状态更新失败”模式反映了模型训练的哪些偏差？基于事实准确率的训练目标，对长记忆系统会产生哪些负面影响？

任玺谕：“状态更新”考察的是模型追踪多步逻辑状态链的能力。例如，用户在对话中提到偏好经历了从苹果到香蕉再到猕猴桃的演变，模型必须能够准确追溯到链条的最后一环。

实验中我们发现，最常见的失败是“过期检索（Stale Retrieval）”。因为检索算法通常基于语义相似度，当你询问偏好时，系统会将历史中所有提到水果偏好的地方全部召回。模型往往分不清哪条是当下的状态，哪条是三个月前的，从而抓住了最早出现或权重最高的旧信息。

这种现象在真实产品中极具风险。比如用户已搬到上海，AI 却依然推荐北京的餐厅；或者用户声明正在吃素，AI却推荐牛排馆。

更严重的是，若用户提到某种药物过敏而模型未更新状态，将引发安全隐患。

究其原因，主流模型的训练奖励是“答出通用事实”，追求博学与自信。但在长记忆Agent场景下，用户私有的动态状态才是唯一事实。当用户表达的内容与模型内部的通用常识冲突时，模型会本能地相信常识并试图纠正用户。在记忆系统里，模型的先验知识有时反而是必须克服的“累赘”。

岑峰：模型“想不清”的另一个表现是，接入记忆后其拒答能力（AR）反而退化了。以前不知道会说不知道，现在有了记忆反而开始自信地胡说，这在长记忆场景下会产生怎样的连锁反应？

任玺谕：这是一个非常反直觉的发现。实验显示，针对记忆进行的后训练（如 SFT 微调或强化学习训练）往往会将模型原有的拒答能力“训没了”。

一些记忆系统在使用未经额外训练的底座模型时，拒答率能保持在 70% 左右；但经过记忆微调后，拒答率普遍跌至 9% 到 22%。更有甚者，拒答率会从 80%直线下降到 10%。

根源在于，目前的微调只奖励“检索成功”和“答对”，从未设置过“无证据时正确拒答”的奖励。模型因此被训成了一种不惜代价也要给出答案的模式。

伴随长上下文带来的证据稀释，模型编造的内容往往有理有据，用户极难分辨。这种对证据的“污染”在工业场景下是致命的。

岑峰：转向工程实践。张总，针对玺谕提到的新旧习惯冲突（如搬家、偏好改变），丘脑智能在 Omni-Mem 框架中是如何处理这类记忆冲突的？

张源：记忆与基座模型的核心区别在于：基座追求客观认知的最高标准，而记忆系统则必须以用户为中心。

我们早期尝试过维护状态更新词表，试图穷举所有场景，但发现无法覆盖繁杂的长尾情况。目前的方案是为记忆单元打上三类标签：时间戳、置信度和证据链。我始终强调时间的重要性，记忆不能脱离时间维度独立存在。

我们的策略是建立“时序优先”与“证据加权”的仲裁规则：

首先，时间戳越新，权重越高；其次，置信度排序上，用户亲口表述（直接证据）优于图片线索，图片线索优于多跳推断。例如，用户直接说“我不爱吃苹果了”，其置信度远高于系统观察到用户很久没吃苹果的间接推断。

在推理阶段，模型会校验记忆状态是否存在新旧冲突。若存在，系统自动选择时间最新、置信度最高的版本并引用对应的证据链。

但这个问题尚未彻底解决。我们需要区分“长期一致性”与“短期波动”。

比如我平时极度爱吃辣，但最近感冒必须忌口。如果系统简单地用“最近不吃辣”覆盖了我的长期偏好，感冒痊愈后它依然推荐清淡饮食，这在用户看来也是一种“错误”。

我们正利用认知画像映射算法来尝试剥离长期特质与短期波动，也期待学术界在这个方向有更多前瞻性的突破和研究。

岑峰：针对“拒答”这一底线，当你们服务政府或零售大客户这类客户时，如果记忆库中确实缺乏证据，如何确保 AI 既能“优雅地拒绝”，又不会为了完成任务而编造伪记忆？

张源：目前我们的客户大部分是陪伴机器人和垂类的Agent为主，但对于任何严谨的行业，对幻觉的容忍度几乎都是零。我们的核心解法是将检索证据与模型生成进行解耦：

第一，空结果识别。多模态检索引擎会给每次召回打分，若分数低于阈值，系统直接判定为无有效证据，即“空结果”。

第二，证据驱动生成。模型的推理模式被严格限制在证据链之内，绝不允许脱离检索到的事实进行“自由发挥”。如果没有证据，模型必须触发预设的拒绝话术，引导用户提供更多细节。

第三，审计合规兜底。针对大客户场景，我们计划添加日志，记录每一次检索与回答生成的完整日志。如果模型给出了错误信息，我们可以通过审计日志回溯是哪个环节的证据出了问题。

刚才玺谕提到强化学习（RL）路径可能导致拒答率降低，这让我深有感触。如果模型意识到给出答案就能获得奖励，它就不会诚实地表达无知。因此，我们不能寄希望于模型的“自觉”，而必须靠工程硬约束——用证据绑定推理，用审计确保合规。

未来产业需要的不是一个无所不知的聪明模型，而是一个言必有据的可信系统。

未来展望：混合架构的产业分工

岑峰：过去一小时，我们深入探讨了多模态长记忆“看得准、找得到、想得清”三大难题。

这场讨论让我感触最深的是：长记忆的落地，绝非靠一个更强的模型或更大的窗口就能解决，其终局必然是长上下文（Long-context）与记忆智能体（Memory Agent）的混合体。

基座模型（LMM）如同处理瞬时信息的“大脑皮层”，而记忆框架则是管理长程信息的“海马体”。

岑峰：请问两位，这种“皮层+海马体”的产业分工，在2026年可能会形成怎样的标准或生态？

任玺谕：这个比喻非常贴切。我们的实验数据支持这种分工：长窗口负责处理当下的、精细的视觉对齐（Grounding）；而结构化的记忆系统负责长程视觉证据的保留与召回。

我预测2026年将出现清晰的接口分层。基座模型厂商致力于确保窗口内“看得准”，而记忆厂商专注于确保长周期内“存得住、找得回”。目前，这两者之间的“带宽”——即视觉证据如何标准化交接、多模态证据如何跨层级对齐，仍是待填补的技术空白。

张源：我非常认同。基座模型极其聪明，推理能力极强，但它在海量数据面前往往是一个“没有记忆的空白脑袋”。

记忆企业的核心使命，是让这些聪明的大脑在处理任务时，能想得清当前动作关联了哪些历史会话或模态，并确保AI始终忠于用户的个人记忆。

岑峰：从学术研究角度看，若要实现从“单帧记忆”向“连续动作序列记忆”的跨越，模型层需要实现怎样的突破？

任玺谕：实际上单帧保真至今未被完美解决，连续动作则会将“压缩与保真”的矛盾在时间维度上放大一个量级。MemLens目前的评测仍停留在静态图，而动作序列是未来的前沿。

我认为模型层需要三方面的突破：首先是时序视觉表示的革新，开发能精准保留动作语义而非全分辨率像素的视频Tokenizer；其次是将动作与事件视为“一等记忆”进行结构化存储，而非孤立的帧堆砌；最后是实现跨帧的实体追踪与状态延续（Object/Actor Permanence）。

虽然工程上可以用关键帧抽取来兜底，但连续语义的无损记忆仍需模型层的根本突破。此外，我们必须警惕，在加强记忆能力的同时，不能以牺牲模型原有的拒答率和安全性为代价。

岑峰：展望未来12个月，有哪些多模态记忆的“坑”最有望通过工程技巧填平？

张源：我认为多模态证据的“对齐与结构化”最具突破希望。这不需要等待模型质变，通过工程体系的成熟即可实现。

未来行业将普遍转向“先锚定、再存储”的范式，利用强多模态模型在写入阶段就将关键证据锁死在语义空间，解决有损压缩带来的细节丢失。

其次是“跨模态检索架构”的成熟。通过意图拆解和定向路由，即使基座模型不升级，仅靠工程架构优化，也能将检索准确率从目前的20%-30%提升至60%以上的可用水平。

最后是“记忆冲突与状态更新”的系统化解决，带时间戳、置信度和证据链的结构化记忆单元将成为标配。

岑峰：填平旧坑的过程中，是否会产生新的挑战？

张源：具身智能在长程任务中的落地将使矛盾更加尖锐。具身记忆管理的不再是简单的对话，而是环境观察、动作关键帧和物体的位移轨迹。这对模态间的关联和动作连续性的要求极高。如果记忆问题不解决，物理AI在执行复杂任务时的缺陷将暴露得更加明显。

任玺谕：没错。具身场景下，视觉证据的密度远高于对话场景，状态更新更频繁（物体位置时刻在变），且对拒答和可信度的要求近乎苛刻——一个不会说“我不知道”的机器人是会出安全事故的。

岑峰：感谢玺谕提供的严苛标尺，也感谢张总分享的实战药方。MemLens将抽象的长记忆量化为可诊断的指标，而丘脑智能则致力于让这些指标在真实场景中生根。多模态长程记忆从Demo走向可靠产品的路线图已愈发清晰。感谢各位收看本期GAIR Live。

Youtube链接：https://www.youtube.com/watch?v=ulXdSmZSzSA

作者持续关注 AI Infra 相关内容，欢迎添加 MS_Yahei 交流，互通有无。 万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031图5

近期热门文章

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031图9