当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图1

在现实世界中，一个为软件开发人员设计的智能体，可能需要面对代码库从Python迁移到Go、依赖版本不断升级、API接口持续演变的挑战。一个长期陪伴用户的个性化助手，需要理解用户从“喜欢咖啡”到“最近改喝早茶”的偏好变迁。然而，当前大多数针对大语言模型智能体的评测，都假设它们运行在一个静态、不变的环境中。

这种假设与真实部署场景相去甚远。真实世界是动态演化的：工作流会更新，软件会迭代，用户偏好会改变。一个可靠的智能体必须能够追踪这些变化，知道哪些知识依然有效，哪些已经过时，并据此调整自己的行为。

为了填补这一研究空白，来自新加坡国立大学、新加坡管理大学、华盛顿大学、麻省理工学院等机构的研究团队提出了 EvoArena 基准测试套件，并配套开发了 EvoMem 记忆范式，旨在评估并提升智能体在动态演化环境中的稳健性。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图3

论文标题：EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
论文链接：https://arxiv.org/pdf/2606.13681
项目主页：https://aiden0526.github.io/EvoArena/
代码仓库：https://github.com/Aiden0526/EvoArena
数据集：https://huggingface.co/collections/Aiden0526/evoarena

研究背景：静态评测与动态现实的鸿沟

近年来，大语言模型智能体在各类基准测试上取得了令人瞩目的成绩，无论是网页导航、软件工程，还是工具使用和通用推理任务。然而，这些评测大多基于静态的环境快照：任务指令、界面、规则和成功标准在基准构建完成后就固定不变。

尽管近期出现了一些动态评测，通过刷新任务、引入异步事件或自我演化实例来提升评测的新鲜度和交互真实性，但它们很少测试“持续性环境演化”这一核心挑战。所谓持续性演化，是指同一个环境（如一个代码库、一个工作流系统或一个用户的偏好）自身会随着时间推移，产生一系列具有版本依赖性的变化。

在真实部署中，API会更新，工作流会优化，代码库会持续集成新功能，用户偏好也会自然演变。一个可靠的智能体必须能够推断出发生了什么变化，哪些先前的知识在当前版本下依然有效，并决定如何在当前环境下行动。如果智能体只是记住了“最新”的状态，那么当新版本覆盖了旧规则时，那些对旧版本或其他场景仍然有效的旧行为就可能被遗忘，导致“状态崩溃”。

创新点一：EvoArena——动态环境下的智能体评测场

为了系统地研究这一挑战，研究团队构建了EvoArena。这是一个专门用于评估智能体在持续性环境演化中表现能力的基准测试套件。EvoArena将环境变化建模为一系列渐进式的更新，涵盖了终端工作流、软件工程和社交智能（用户偏好）三大关键领域。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图4 — 图1：EvoArena的构建示意图。它将静态的智能体基准测试转化为跨可执行工作流、软件工程和社交智能的版本化演化链，测试智能体能否在适应新变化的同时，保留仍然有效的旧行为。

1. 终端工作流演化

这部分基于Terminal-Bench构建，模拟了真实的命令行工作环境演化。例如，一个部署网页的终极目标保持不变，但部署机制、服务路径、权限模型或分支策略会随着版本更新而改变。智能体必须识别出每个版本中变化的具体约束，并调整其解决方案，而不是盲目复用旧版本中有效的命令。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图5 — 图2：Terminal-Bench-Evo示例。目标始终是推送`hello.html`并在8080端口提供服务，但每个版本都会改变一个关键的操作约束。

2. 软件工程演化

这部分模拟了真实软件仓库的持续集成与演化。智能体需要在一个代码库的历史快照序列上工作，每个后续的里程碑任务都建立在前一个任务已修改的代码库状态之上。这不仅要求智能体实现新功能，还要求其不能破坏之前版本已经建立起来的正确行为。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图6 — 图3：SWE-Chain-Evo示例。一个围绕aiohttp库的演化链，在保持现有兼容行为的同时，逐步强化协议和环境边界的安全性。

3. 社交智能演化

这部分关注用户偏好的长期演化。智能体需要从长达数十万词元的混合主题对话历史中，推断用户隐含的偏好，并理解这些偏好如何随时间演变。例如，用户可能早期表示“喜欢在周一早晨喝咖啡”，中期变为“最近在工作日早晨喜欢喝茶”，而后期又补充“周末仍然享受卡布奇诺”。

回答“周一早晨该推荐什么饮料”这样的问题时，智能体必须追踪整个偏好演化的轨迹，给出符合当前最新状态的答案。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图7 — 图4：PersonaMem-Evo示例。对话历史揭示了用户偏好的演化，查询需要将相关条件与最合适的当前偏好进行匹配。

EvoArena的总体分布如图5所示，它覆盖了广泛的操作变更类型和问题类型，为全面评估智能体在演化环境中的能力提供了坚实的基础。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图8 — 图5：EvoArena的领域与问题类型分布。

创新点二：EvoMem——基于补丁的记忆演化范式

面对EvoArena揭示的挑战，研究团队提出了EvoMem，一种轻量级、类似Git的补丁式记忆范式。其核心思想是：将记忆的更新过程本身也作为可追溯、可检索的证据保存下来。

现有的智能体记忆系统通常只维护一个单一的“最新”记忆状态。当新信息安全地取代旧信息时，这种设计是有效的。但在演化环境中，知识往往是版本依赖的。例如，为新工作流版本更新的规则，可能会覆盖一条对旧版本、其他组织或未来回滚仍然有效的旧规则。简单地将记忆更新到最新状态，可能会抹去有用的历史行为及其适用上下文。

EvoMem通过为现有记忆系统增加一个只追加的补丁历史来解决这一局限。如图6所示，EvoMem包含两个核心组件：

补丁记录：当发生有行为意义的非增量式记忆更新时（如覆盖、修订），系统会记录一个补丁。该补丁包含更新前后的记忆内容、更新原因以及触发更新的环境证据。
补丁增强检索：在推理时，智能体默认从最新记忆中检索证据。但当查询依赖于被覆盖的状态、时间变化或版本特定行为时，系统会同时检索相关的历史补丁，为决策提供版本化的证据支持。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图9 — 图6：EvoMem概览。它在基础记忆系统之上增加了一个只追加的补丁历史，记录行为上有意义的记忆更新，并在推理时检索相关补丁作为版本化证据。

这种设计将记忆从一个易变的单一存储，转变为一个可追溯的演化轨迹。智能体既可以基于最新记忆行动，又能访问先前的状态、更新原因和证据，从而进行版本感知的推理。EvoMem是一个通用的记忆抽象，可以实例化到不同类型的智能体上，如终端交互智能体、软件工程智能体、会话记忆智能体和技能记忆智能体。

实验结果：当前智能体的困境与EvoMem的成效

研究团队在EvoArena以及标准基准测试GAIA和LoCoMo上进行了广泛的实验，评估了包括GPT-5.5、Gemini-3.1-Pro、Qwen3.6-27B、Kimi-K2.6在内的多种大语言模型。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图10

当前智能体在演化环境中表现不佳

实验结果表明，即使在步骤级别的任务上，当前最强的智能体系统在演化环境中的表现也大幅下降。在Terminal-Bench-Evo、SWE-Chain-Evo和PersonaMem-Evo上，基线智能体的平均准确率分别仅为43.6%、27.9%和47.3%。更严峻的挑战在于链级别的评估——要求智能体连续解决一个演化链中的所有相关子任务。在这一更严格的指标下，基线智能体的性能进一步暴跌，三个子集的平均链准确率分别只有21.5%、10.0%和40.0%。这清楚地表明，解决孤立的步骤并不等同于能在持续的环境演化中保持可靠。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图11 — 图7：在EvoArena上，各模型的步骤准确率与链准确率对比。越靠近右上角表现越好。

EvoMem显著提升稳健性

引入EvoMem后，智能体在所有EvoArena子集上的表现都得到了稳定提升。平均而言，EvoMem在三个子集上分别带来了2.4%、0.4%和1.7%的步骤准确率提升。更重要的是，在链级别评估上的提升更为显著，分别达到了6.1%、2.1%和3.2%的增益。这凸显了EvoMem在维护跨多个相关环境状态的一致性方面的价值。

此外，EvoMem的益处不仅限于演化环境。在标准的GAIA和LoCoMo基准测试上，EvoMem也分别带来了平均6.1%和4.8%的性能提升。这表明，将记忆更新历史作为可检索证据保存的设计理念，在任务条件随时间变化的多种场景下都具有普遍价值。

机制分析：EvoMem为何有效？

为了深入理解EvoMem的作用机制，研究团队从不同领域进行了分析。

在终端工作流中，分析发现EvoMem的帮助主要发生在检索到的补丁信息被智能体“操作化”时。即智能体必须注意到从先前变体到当前变体的具体变化，保留旧流程中仍然有用的部分，并修改因当前演化而失效的部分。当智能体在其后续推理或执行的命令中复用了补丁中的术语时，性能增益最大。

在软件工程中，EvoMem的一个关键作用是减少了“回归”。它帮助智能体在实现新需求的同时，更好地保留了历史代码约束，降低了破坏先前正确行为的概率。在SWE-Chain-Evo上，EvoMem将平均回归率从9.09%降低到了6.32%。

在社交智能中，EvoMem在需要时间轨迹推理和多模式证据合成的问题上提升最为明显（均提升5.2%）。这两类问题分别要求追踪偏好随时间的变化，以及整合散布在长对话历史中的多个偏好信号。这正是EvoMem的设计目标所在——当单一的记忆状态可能丢失中间证据时，补丁历史可以恢复相关的历史状态。进一步的证据保存率分析表明，EvoMem更好地保留了推理所需的完整偏好状态。

当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式图12 — 图8：不同模型在PersonaMem-Evo和Terminal-Bench-Evo上的准确率与总词元使用量对比。词元使用量是推理效率的代理指标，虚线表示跨模型平均值。

研究还分析了效率与准确性的权衡。结果发现，更高的词元使用量（通常意味着更长的思考或尝试）并不总是能转化为更高的任务准确率。这提示在评估智能体时，需要联合考虑其能力与推理效率。

结语

这项工作通过引入EvoArena基准测试和EvoMem记忆范式，朝着构建能在动态演化环境中保持稳健的大语言模型智能体迈出了重要一步。研究表明，当前智能体在持续性环境变化面前仍然脆弱，而通过将记忆视为基于证据的更新历史进行管理，可以显著提升其适应性和可靠性。

EvoArena目前聚焦于可执行工作流、软件仓库和用户偏好这三种代表性的演化形式。研究团队指出，环境演化是智能体部署中的一个普遍性挑战，类似的动态也会出现在机器人学、具身交互、科学工作流和多智能体协作等长期运行的系统中。将EvoArena扩展到这些领域，将是未来重要的研究方向。

最终，这项工作的更广泛意义在于提示我们：在变化的环境中，可靠的智能体应将记忆视为一个不断演化的、有据可查的更新记录，让最新状态始终与产生它的先前状态、更新原因和支撑证据联系在一起。只有这样，智能体才能在真实世界持续不断的变迁中，真正成为人类可靠而持久的伙伴。

-- 完 --

加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。

机智流推荐阅读：

1. ‍

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有与、、、、等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
lc｜LangChain 技术交流群
code | AI Coding 交流群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
推理 | AI 推理框架交流群
Agent | Agent 技术交流群