让AI智能体「记住」失败经验：微软提出Re-TRAC框架，4B性能SOTA，30B超越358B

想象一下，你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向，但第二次、第三次，它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案，但是这既低效，也需要人工干预。这就是当前大多数深度搜索智能体面临的困境——它们无法「记住」之前的探索经验，每次都是从头开始，导致大量冗余搜索和资源浪费。

现有的深度搜索智能体大多基于 ReAct 框架构建，采用线性推理方式：「思考→调用工具→观察→再思考」。这种设计在简单任务上表现良好，但在需要多轮探索的深度搜索任务中，往往陷入局部最优、重复探索和低效搜索的困境。

来自东南大学、微软亚洲研究院等机构的研究团队提出了一种全新的解决方案——Re-TRAC（REcursive TRAjectory Compression），这个框架让 AI 智能体能够「记住」每次探索的经验，在多个探索轨迹之间传递经验，实现渐进式的智能搜索。

让AI智能体「记住」失败经验：微软提出Re-TRAC框架，4B性能SOTA，30B超越358B图2

论文标题： RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
论文链接：https://arxiv.org/abs/2602.02486
项目链接：https://github.com/microsoft/InfoAgent

让探索变成「渐进式学习」过程

为什么 ReAct 会失败？

ReAct 框架的核心问题在于其线性设计。每个探索轨迹都是独立的，模型无法回顾先前尝试的状态。在长上下文场景下，早期制定的计划逐渐被遗忘，关键线索被埋没。

研究团队通过深入分析发现，现有深度搜索模型即使经过大量强化学习训练，其 Pass@K 性能仍远高于 Pass@1。这意味着模型本身具备解决问题的推理能力潜能，问题在于受限于上下文长度限制，单次探索难以生成足够多样的探索路径，无法覆盖足够宽广的搜索空间。

Re-TRAC：递归式轨迹压缩

Re-TRAC 的核心思想是将探索从一系列独立尝试转变为渐进式学习过程。具体而言，在每个探索轨迹结束时生成一个结构化的状态表示，针对深度搜索任务，记录以下三个维度的信息：

答案与分析结论：当前可能性最高的答案与其关键推理结果——为后续推理提供锚点。

证据库与来源验证：已搜集到的证据及其来源，并标记哪些已被查阅、已被验证——避免冗余的工具调用和重复检查。

不确定项与待探索方向：现阶段需要继续探索验证的角度、曾被遗漏的候选探索分支与曾因失败放弃的探索方向；帮助模型在下一轮中补全未探索的搜索空间。

这个结构化状态将被添加到下一轮探索的输入中，确保智能体在每轮新尝试开始时，都能清楚地了解什么已被验证、什么仍未解决，以及应该将探索重点放在哪里。

让AI智能体「记住」失败经验：微软提出Re-TRAC框架，4B性能SOTA，30B超越358B图3

小模型也能「以小博大」

研究团队在五个具有挑战性的搜索导向基准上评估了 Re-TRAC：BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。

让AI智能体「记住」失败经验：微软提出Re-TRAC框架，4B性能SOTA，30B超越358B图4

4B 模型性能 SOTA

RE-TRAC-4B 在所有小于 15B 参数的基线中表现最佳：

在 BrowseComp 上达到 30.0% 的准确率；
在 BrowseComp-ZH 上达到 36.1%；
在 GAIA 上达到 70.4%；
在 XBench 上达到 76.6%；
在 HLE 上达到 22.2%。

更令人惊讶的是，这个仅 4B 参数的模型在多个基准上超越了更大规模的模型。

在 XBench 基准上，RE-TRAC-4B 的 76.6% 准确率不仅远超 InfoAgent-14B 的 40.4%（提升了近 90%），也超过了 NestBrowse-4B 的 74.0%。

在 GAIA 基准上，RE-TRAC-4B 的 70.4% 准确率超过了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

30B 模型的进一步突破

RE-TRAC-30B 同样表现出色，在除 HLE 外的所有基准上都击败了 MiniMAX-M2-229B。

在 BrowseComp 上，其准确率达到 53%，甚至超过了 GLM-4.7-358B 的 52%。

在 GAIA 上，RE-TRAC-30B 击败了所有闭源模型，在 BrowseComp 和 BrowseComp-ZH 上排名第二。

这些结果说明，通过轨迹压缩与跨轮次信息传递，小模型在资源受限场景下也能获得接近甚至超过更大模型的效果。

更少的消耗、更高的性能的通用拓展

Re-TRAC 不仅可以通过训练提升小模型性能，还可以作为无需训练的测试扩展直接应用于前沿模型。

研究团队在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上实现了 Re-TRAC 框架，并与多数投票（Majority Voting）、加权投票（Weighted Voting）和最佳选择（Best-of-N）等方法进行了对比。

让AI智能体「记住」失败经验：微软提出Re-TRAC框架，4B性能SOTA，30B超越358B图5

结果显示，Re-TRAC 在所有模型上都达到了最佳或具有竞争力的性能。在 BrowseComp300 子集上：

o4-mini 通过 Re-TRAC 从 25.7% 提升到 46.8%；
o3 从 54.9% 提升到 69.8%；
GPT-5-medium 从 48.3% 提升到 66.6%；
DeepSeek-V3.2 从 45.3% 提升到 60.8%；
GLM-4.7 从 37.7% 提升到 60.7%。

在传统框架中，由于轨迹相互独立，资源使用量通常随扩展近似线性增长。Re-TRAC 会继承之前轮次的状态，使搜索空间逐步收敛，从而减少冗余工具调用与重复探索，提升探索的效率。

技术细节：

如何训练 Re-TRAC 模型

研究团队开发了一种后训练方法，构建了基于结构化状态表示的监督微调（SFT）数据。训练数据通过实体树方法构建：从维基百科收集大量实体作为树根，然后递归搜索相关实体作为子节点，直到树达到预定义深度。

通过选择从根到叶节点的路径并将边转换为子问题，团队合成了 33K 个问答对。然后，收集 GLM-4.7 在这些合成问题上的 Re-TRAC（4 轮）轨迹，经过过滤后得到 104k 个训练样本，用于训练 RE-TRAC-4B 和 RE-TRAC-30B 模型。

实验结果显示，经过 SFT 训练后，Qwen3-4B-Instruct 在 BrowseComp 上的准确率从 2.7% 大幅提升到 30.0%，在 BrowseComp-ZH 上从 6.9% 提升到 36.1%，在 GAIA 上从 24.4% 提升到 70.4%，在 XBench 上从 45.0% 提升到 76.6%。

这表明通过简单的 SFT 训练，配合 Re-TRAC 框架，可以产生强大的搜索智能体，实现与通过大规模强化学习训练的模型相当甚至更好的性能。

总结：

优化 ReAct 的搜索框架，

让小模型跑出大模型表现

Re-TRAC 可以看作是针对深度搜索任务优化过的 ReAct 框架：在原有「思考→调用工具→观察→再思考」的范式上，引入了跨轮次的轨迹压缩和结构化状态表示，让智能体在开放网络检索、复杂信息汇总等场景中不再「从零开始」，而是像人一样复用既有证据、总结失败教训并规划未来方向。

更重要的是，这种有针对性的框架设计让小模型也能跑出大模型级别的效果，为资源受限场景（如边缘设备、本地部署）提供了一条「用小模型做大事」的现实路径。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com