清华最新综述！迈向Deep Reasoning的Agentic RAG，200篇工作尽览~

点击下方卡片，关注“大模型之心Tech”公众号

本文只做学术分享，如有侵权，联系删文

检索增强生成（Retrieval-Augmented Generation, RAG）通过注入外部知识提升了大语言模型的事实性，但在需要多步推理的问题上表现欠佳；反之，纯推理导向的方法则常出现生成幻觉内容（hallucination）或事实依据不足的问题。本综述从“推理-检索协同”这一统一视角，整合了上述两大研究方向。首先，本文梳理了先进推理技术如何优化RAG的各个阶段（即“推理增强型RAG”）；其次，阐述了不同类型的检索知识如何为复杂推理补充缺失前提并扩展上下文（即“RAG增强型推理”）；最后，重点聚焦新兴的“协同式RAG-推理框架”——在这类框架中，具备智能体能力（agentic）的LLM会迭代交替执行搜索与推理操作，从而在各类知识密集型基准测试中实现当前最优性能。本文对相关方法、数据集及开放挑战进行了分类梳理，并勾勒出未来研究方向，旨在构建更高效、多模态适配、可信且以人为本的深度RAG-推理系统。

汇总链接：https://github.com/DavidZWZ/Awesome-RAG-Reasoning
论文链接：https://arxiv.org/abs/2507.09477v2

更多大模型内容欢迎加入『大模型之心Tech知识星球』，行业、技术、求职、问答一站式打通~

引言

大型语言模型（LLMs）的显著进展已改变了众多领域，在各类任务中展现出前所未有的能力（。尽管取得了这些突破，LLM的有效性仍受限于两大核心缺陷：其一，由于知识以静态参数化方式存储，导致模型易产生“知识幻觉”；其二，在处理现实世界问题时，模型难以完成复杂推理任务。这两大缺陷推动了两个主要研究方向的发展：一是检索增强生成（Retrieval-Augmented Generation, RAG），该方向为LLM提供外部知识支持；二是各类LLM固有推理能力增强方法。

上述两大缺陷存在内在关联：知识缺失会阻碍推理过程，而推理缺陷则会影响知识的有效利用。因此，研究人员已逐渐探索将检索与推理相结合，但早期工作主要遵循两条相互独立的“单向增强”路径：
第一条路径是推理增强型RAG（推理→RAG），即利用推理技术优化RAG流程的特定阶段；
第二条路径是RAG增强型推理 RAG→推理），即通过提供外部事实依据或上下文线索，增强LLM的推理能力。

尽管上述单向增强方法具有一定价值，但它们仍受限于静态的“检索后推理（Retrieval-Then-Reasoning, RTR）”框架，仅能对单个组件实现局部优化，且存在以下固有缺陷：
（1）检索充分性与准确性无法保证：预检索的知识可能无法匹配推理过程中实际产生的知识需求，在复杂任务中这一问题尤为突出；
（2）推理深度受限：若检索到的知识包含错误或冲突信息，会对模型固有的推理能力产生不利干扰；
（3）系统适应性不足：RTR框架缺乏推理过程中的迭代反馈或动态检索机制，这种刚性限制了其在开放域问答（QA）、科学发现等需自适应推理场景中的有效性。

如图1所示，这些缺陷推动了LLM研究范式的转变——向“RAG与推理协同（Synergized Retrieval and Reasoning, RAG ⇔ Reasoning）”方向发展。这类方法支持动态、迭代的交互过程：推理主动引导检索，而新检索到的知识反过来持续优化推理流程。OpenAI¹、Gemini²、Perplexity³等机构近期推出的“深度研究（Deep Research）”产品进一步体现了这一趋势，这些产品强调检索与推理的紧密耦合。它们借助智能体能力协调多步网络搜索，并通过推理全面解读检索内容，从而解决需深度调研的复杂问题。

本综述梳理了从“单向增强”到“前沿协同框架”的演进历程——在协同框架中，检索与推理深度交织、共同进化。目前已有关于RAG和LLM推理的单独综述，但缺乏聚焦二者融合的专门综述。本文旨在全面概述检索与推理的协同作用如何提升LLM能力，尤其重点关注向“RAG-推理协同框架”的演进。

¹https://openai.com/index/introducing-deep-research/
²https://gemini.google/overview/deep-research/
³https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research

背景与预备知识

检索增强生成（RAG）通过三个连续阶段缓解大型语言模型（LLMs）的知识时效性问题（知识截止）：（1）检索阶段：从外部知识库中获取与任务相关的内容；（2）整合阶段：对检索到的内容进行去重、冲突解决和重排序；（3）生成阶段：基于整理后的上下文进行推理，生成最终答案。与此同时，思维链（Chain-of-Thought, CoT）技术通过鼓励模型在回答前“逐步思考”，显著提升了现代LLM的推理能力。结构化的RAG流程与这种多步推理能力之间的协同作用，构成了本综述所探讨的新兴“RAG-推理”范式的基础。

推理增强型RAG（推理→RAG）

传统RAG方法通常先检索相关文档，再将检索到的知识与原始查询拼接，最终生成答案。这类方法往往无法捕捉复杂推理任务所需的深层上下文或复杂关系。通过在RAG流程的“检索”“整合”“生成”三个阶段融入推理能力，系统能够识别并获取最相关的信息，从而减少幻觉内容的产生，提升响应准确性⁴。

检索优化

检索优化借助推理技术提升检索结果的相关性与质量，现有方法主要分为三类：（1）推理感知查询重构；（2）检索策略与规划；（3）检索模型增强。

推理感知查询重构

该方法通过重构原始查询，更好地检索与推理相关的上下文，主要包含三种策略：
首先，查询分解：将复杂查询拆解为更简单的子查询；
其次，查询改写：将模糊的查询转化为更清晰的表述。为了与生成器的推理需求对齐，部分研究采用强化学习（RL）信号训练查询改写模型；
最后，查询扩展：通过思维链（CoT）推理丰富查询的语义信息。

检索策略与规划

本节聚焦检索过程的全局引导方法，主要包括“预先规划”与“自适应检索决策”两类：
预先规划：利用推理模型在检索执行前生成完整的检索蓝图。例如，PAR-RAG采用思维链进行多步规划，以避免局部最优问题；LPKG则在知识图谱上对LLM进行微调，以编码实体间的关系结构。
自适应检索决策：通过单步预测判断是否需要检索及如何检索。例如，FIND与自适应RAG利用分类器评估查询复杂度并选择检索策略，减少不必要的检索调用；

检索模型增强

这类方法通过两种策略为检索器融入推理能力：
第一种策略是利用结构化知识：GNN-RAG（采用图神经网络（GNN）对知识图谱进行编码，实现隐式multi-hop推理；RuleRAG则附加符号规则，引导检索过程向逻辑一致性方向优化。
第二种策略是整合显式推理：例如，Ji将思维链与查询结合，提升multi-hop问答任务中中间知识的召回率。

整合增强

整合增强利用推理技术评估检索内容的相关性并融合异构证据，避免无关内容干扰生成过程，主要分为“相关性评估”与“信息融合”两类方法。

信息融合与整合

在识别出相关片段后，核心挑战是将其融合为连贯的证据集：
BeamAggR枚举子问题的答案组合，并通过概率推理对其进行聚合；DualRAG将“推理增强型查询”与“渐进式知识聚合”相结合，将检索到的信息过滤并组织为动态更新的框架；CRP-RAG构建推理图，在每个节点上执行知识检索、评估与聚合，并在生成前动态选择“知识充分性路径”。

生成增强

即便拥有检索到的上下文，传统RAG若缺乏推理能力，仍可能生成不真实的内容。生成阶段的推理通过两种主要方式解决这一问题：（1）上下文感知整合；（2）基于事实的生成控制。

上下文感知整合策略

上下文感知生成确保输出内容的相关性并降低噪声干扰，主要包括两种思路：
选择性上下文利用：基于任务相关性对上下文进行剪枝或重加权。例如，Open-RAG采用稀疏专家混合模型动态选择知识模块；RARE则在提示词中加入领域知识，促使模型更多依赖外部上下文而非内部记忆。
推理路径生成：构建显式逻辑链以提升透明度。例如，Ranaldi 通过逐步比较段落相关性生成对比性解释，引导模型得出准确结论；Self-Reasoning通过“顺序证据选择与验证”构建结构化推理链。

基于事实的生成控制

这类方法引入验证机制，通过推理确保输出内容锚定于检索到的证据，主要包括三种策略：
事实验证：利用推理评估生成内容与检索证据的事实一致性。例如，Self-RAG在解码过程中引入“反思标记”，触发模型对生成内容的批判性审查与修正。
引用生成：将生成内容与来源材料关联，提升可追溯性与可信度。例如，RARR在生成过程中插入引用，同时保持文体连贯性。
可信推理：确保每一步推理均基于检索证据，不引入未经验证的内容。例如，TRACE构建知识图谱以形成连贯的证据链；AlignRAG通过“批判性对齐”优化推理路径。

RAG增强型推理（RAG→推理）

在推理过程中整合外部知识或上下文内知识，可帮助大型语言模型（LLMs）减少生成幻觉（hallucination）并填补逻辑缺口。其中，外部检索利用数据库、网络内容等结构化来源提供事实依据（如IAG）；上下文内检索则借助模型内部上下文（如先前交互记录、训练样本）提升上下文连贯性（如RA-DT）。这两种策略共同提升了推理过程的事实准确性、可解释性与逻辑一致性。

外部知识检索

外部知识检索将网络内容、数据库信息或外部工具融入推理过程，有效填补知识缺口。针对性检索可提升事实准确性，使语言模型能通过将推理步骤锚定于已验证的外部证据，可靠地处理复杂查询。

知识图谱（Knowledge Base）

知识图谱（KB）通常以数据库、书籍、文档等形式存储算术、常识或逻辑知识，其检索方式因任务而异：

在问答（QA）推理中，AlignRAG、MultiHopRAG、CRP-RAG等方法从通用知识图谱中检索相互关联的事实条目，以增强序列推理能力；
在专业推理任务中，Premise-Retrieval、ReaRAG等数学领域方法利用定理库中的形式化引理实现结构化演绎，CASEGPT、CBR-RAG等法律领域方法则提取司法判例以支持类比推理；
在代码生成任务中，CodeRAG、Koziolek从代码仓库中获取代码片段，确保生成结果的语法正确性。

网络检索（Web Retrieval）

网络检索可获取网页、新闻、社交媒体等动态在线内容，其应用场景包括：

在事实核查任务中，VeraCT Scan、Ragar、PACAR、STEEL等方法通过新闻或社交媒体证据逐步验证主张，提升逻辑推理能力；
在问答类推理中，RARE、RAG-Star、MindSearch、OPEN-RAG等方法利用广泛的网络内容迭代优化推理过程，符合智能体化搜索（agentic search）的当前趋势——即通过整合复杂在线素材增强上下文感知与鲁棒推理；
在医疗推理等专业领域中，FRVA、ALR²等方法检索文献以实现精准诊断。

工具使用（Tool Using）

工具使用类方法通过调用计算器、函数库、API等外部资源，交互式增强推理能力：

在问答类推理中，ReInvoke、AVATAR、ToolkenGPT、ToolLLM调用计算器或API（如雅虎财经、维基数据），提升数值准确性与事实精度；
在科学建模中，SCIAGENT、TRICE整合符号计算工具（如WolframAlpha），增强计算鲁棒性；
在数学计算中，llm-tool-use自主调用计算器实现精准数值推理；
在代码生成任务中，RAR通过OSCAT库检索代码文档，确保生成结果的语法准确性与可执行逻辑。

上下文内检索

上下文内检索利用模型的内部经验，或从演示样本、训练数据中检索示例以引导推理。这类检索提供相关范例，帮助模型模仿推理模式，提升对新问题的推理准确性与逻辑连贯性。

先前经验（Prior Experience）

先前经验指存储在模型内部记忆中的过往交互记录或成功策略，其检索方式因任务而异：

在规划与决策任务（如机器人路径规划）中，RAHL、RA-DT利用过往决策与强化信号支持序列推理；
在交互式推理任务中，JARVIS-1、RAP、EM-LLM动态召回多模态交互记录与对话历史，为个性化交互提供自适应推理支持；
在逻辑推理领域中，CoPS检索医疗、法律等领域的结构化既往案例，为该类场景下的鲁棒逻辑推理提供支撑。

示例或训练数据

与依赖先前经验的方法不同，基于示例的推理从演示样本或训练数据中检索外部示例：

在复杂文本理解中，RE4、Fei利用带标注的句子对提升关系识别能力；
在问答类推理中，OpenRAG、UPRISE、MoD、Dr.ICL选择与查询高度匹配的演示样本，提升模型泛化能力；
在代码生成任务中，PERC从HumanEval等数据集出发，通过语义或结构相似性检索伪代码，确保生成结果与目标代码的一致性。

协同式RAG-推理（RAG⇔推理）

开放域问答、科学发现等现实世界问题，需要通过“新证据持续优化推理、推理反过来指导证据获取”的迭代方式解决。单次检索可能无法提供充足信息，单次推理也可能遗漏关键洞见。通过将检索与推理以多步、交互式方式深度整合，这类系统可逐步优化检索信息的相关性与对原始查询的推理理解。本章聚焦现有方法的两个核心视角：推理流程（强调多步推理的结构化、预定义推理格式）与智能体协同调度（关注智能体如何与环境交互及相互协作）。

推理流程

推理流程主要分为链式、树式与图式三类，体现了从线性推理链到分支化、高表达性推理结构的演进过程。

链式（Chain-based）

思维链（Chain-of-Thought, CoT）将推理过程构建为线性中间步骤序列，但仅依赖LLM的参数化知识易导致错误传播。为解决这一问题，IRCoT、Rat在推理步骤间插入检索操作。近期部分方法通过验证与过滤进一步提升该范式的鲁棒性与严谨性：

CoV-RAG引入“验证链”，通过检索参考内容检查并修正每一步推理；
为应对噪声或无关上下文，RAFT微调LLM以忽略干扰文档，Chain-of-Note则提示模型对检索文档逐次“记笔记”，过滤无用信息。

树式（Tree-based）

树式推理方法主要采用“思维树（Tree-of-Thought, ToT）”或“蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）”两种思路：

ToT类方法：将CoT扩展为显式确定性推理树，支持多逻辑路径分支。例如，RATT构建“检索增强型思维树”，同步评估多条推理轨迹；该类方法可避免LLM陷入早期错误假设，已应用于模糊问题解答（Kim et al., 2023）、多诊断可能性覆盖、复杂故事创作等场景；
MCTS类方法：如AirRAG、MCTS-RAG、SeRTS（Hu et al., 2024）采用概率树搜索，基于启发式概率动态优先探索潜在路径。为保障检索与推理质量，AirRAG融入自一致性检查，MCTS-RAG则通过自适应MCTS检索优化证据、减少生成幻觉。

图式（Graph-based）

图式推理方法分为“图上游走（Walk-on-Graph）”与“图上思考（Think-on-Graph）”两类：

图上游走方法：主要依赖图学习技术实现检索与推理。例如，PullNet、QA-GNN、GreaseLM直接整合图神经网络（GNN），通过迭代聚合邻居节点信息建模图结构数据中的复杂关系；SR、LightRAG、StructRAG则采用向量索引、PageRank等轻量级图技术，在multi-hop上下文中高效检索与推理，为LLM提供适配查询的高质量结构化内容；
图上思考方法：将图结构直接融入LLM推理循环，支持由LLM主导的动态迭代检索与推理。在“图上思考（ToG）”框架中，LLM将知识图谱（KG）作为“推理平台”，每一步自主决定探索的关联实体或关系，逐步构建通向答案的路径；Graph-CoT引入“推理-图交互-执行”三阶段迭代循环，KGP则优先构建文档级知识图谱，二者均支持LLM驱动的图遍历智能体，在每一步借助全局连贯上下文导航文本段落；GraphReader进一步优化该范式，通过在每一步将LLM推理与显式子图检索、证据锚定相结合提升性能。

智能体协同调度

根据智能体架构，现有研究可分为“单智能体”与“多智能体”两类。

单智能体（Single-Agent）

单智能体系统将知识检索（搜索）融入LLM的推理循环，支持在问题解决的每一步动态查询信息，并促使模型在需要时主动获取相关证据。

提示词驱动策略：ReAct及其衍生方法是该方向的先驱，通过引导LLM在推理步骤与外部工具交互（如数据库搜索）间明确切换实现——与ReAct将推理和动作分离（通过“搜索”等显式指令触发外部检索）不同，Self-Ask、IRCoT等方法提示模型递归生成并解答子问题，实现“思维链内交织检索”（逐步检索与推理）。此外，DeepRAG、Self-RAG引入自我反思策略，让LLM自省知识局限性，仅在必要时执行检索；
有监督微调（SFT）驱动策略：Toolformer代表了与提示词方法互补的思路——通过在“搜索-推理交织”的指令数据集或合成数据集上微调LLM实现优化。其中，合成数据生成旨在构建大规模、多样化的任务特定数据集，无需大量人工标注；指令化数据重构则将现有数据集转化为指令格式，以微调模型提升泛化能力与人类推理对齐度。例如，INTERS通过人工编写模板，从43个不同数据集构建涵盖20项任务的SFT数据集；
强化学习（RL）驱动策略：该类方法通过奖励信号优化答案质量，引导智能体决策“检索内容、整合证据方式、停止时机”，适用于复杂知识密集型任务（或“深度研究”类问题）。WebGPT、RAG-RL等早期工作通过基于事实正确性或人类偏好的奖励提升推理可信度；近期研究则聚焦动态环境（如实时网络搜索、本地搜索工具），训练智能体在噪声真实场景中探索、反思与自我修正：例如，Search-R1在推理过程中学习生成<search>令牌，R1-Searcher基于RL驱动搜索实现跨领域强泛化；DeepResearcher进一步提出首个端到端RL训练的研究智能体，可与开放网络交互。这些设置展现出监督学习难以实现的涌现能力，如问题分解、迭代验证、检索规划。此外，ReSearch、ReARTeR还解决了更深层挑战——不仅要求生成正确答案，还需确保推理步骤兼具事实性与可解释性。

多智能体（Multi-Agent）

RAG与推理领域的多智能体协作研究已形成多种调度模式：中心化架构（通过“管理者-执行者”范式聚合集体智能）与去中心化架构（利用角色专业化智能体的互补能力）。

去中心化架构（Decentralized）

去中心化架构部署多个智能体协同执行检索、推理与知识整合，旨在扩大相关信息覆盖范围，并充分发挥专业化智能体的异质优势：

Wang、Salve提出的多智能体系统中，每个智能体从分区数据库或特定数据源（关系型数据库、NoSQL文档库等）检索信息；
除检索外，Collab-RAG、RAG-KG-IL整合不同模型能力并分配推理、知识整合角色；
该思路已扩展至多模态场景，如MDocAgent采用文本与图像智能体团队处理文档问答；
Agentic Reasoning是更通用的范式，整合“搜索、计算、结构化推理”类工具使用智能体，通过协同调度解决复杂分析任务。

中心化架构（Centralized）

中心化架构采用分层中心化模式组织智能体，支持高效任务分解与渐进式优化：

HM-RAG、SurgRAW均采用“分解器-检索器-决策器”架构，不同智能体角色分别处理多模态处理、手术决策等子问题；
Wu、Iannelli分别强调“动态路由”与“系统重构”，支持基于任务相关性或资源约束的智能体智能选择；
Chain of Agents、“匝道汇入协同多智能体控制框架”体现了分层智能体设计——通过分层处理实现长上下文摘要或策略优化。这些研究共同表明，中心化控制与分层流水线设计可提升多智能体RAG-推理系统的效率与适应性。

基准测试与数据集

用于同步评估知识（RAG）与推理能力的基准测试和数据集涵盖了从基础事实检索到通用或特定领域内复杂多步推理的各类复杂场景。我们将主要基准测试按任务类型分类，并在表1中列出，同时重点说明其细节与属性。这些代表性任务包括网页浏览（如BrowseComp）、单跳问答（如TriviaQA）、multi-hop问答（如HotpotQA、多项选择问答（如MMLU-Pro）、数学任务（如MATH），以及来自LiveCodeBench的代码相关评估。

未来工作方向

协同式RAG-推理系统的未来研究方向围绕提升推理与检索能力展开，以满足现实世界对准确性、效率、可信度及用户对齐的需求。以下是我们梳理的关键挑战与机遇。

推理效率

尽管协同式RAG-推理系统在复杂推理中具备优势，但迭代检索与多步推理循环可能导致显著的延迟问题。例如，在实际场景中执行单个深度研究查询可能需要超过10分钟。这一问题在前文讨论的链式工作流中尤为突出。未来研究应通过潜在推理（latent reasoning）方法提升推理效率，并借助思维蒸馏（thought distillation）与长度惩罚（length-penalty）等策略控制推理深度。除推理本身外，模型压缩领域的新兴方向（如量化（quantization）、剪枝（pruning）与知识蒸馏（knowledge distillation））也值得探索，以构建高效的轻量化RAG-推理系统。

检索效率

在检索层面，效率提升需要“预算感知查询规划”与“内存感知机制”——后者可缓存既往证据或信念状态，减少冗余访问。此外，“自适应检索控制”（即基于不确定性信号学习“是否检索”及“检索多少”）可减少无效操作。这些技术路径将系统从静态RAG推向动态自调节的高效检索模式，以适应现实世界的约束条件。

人机智能体协作

RAG-推理的许多应用（如文献综述、交互式编程）具有内在的个性化属性，无法假设用户明确知道“该问什么”或“如何处理检索结果”。结合前文内容，人类可作为高级智能体，提供精细化反馈以引导推理过程。未来系统需开发以下方法：建模不确定性下的用户意图、构建用于迭代澄清的交互式界面，以及设计能根据用户专业水平与偏好调整推理策略的智能体。这种“人机闭环”模式对于在开放域中构建稳健且用户对齐的RAG-推理系统至关重要。

智能体结构与能力

协同式RAG-推理的核心特征是其智能体化架构——系统可自主决定不同智能体的角色，以及在推理阶段调用哪些工具或检索策略。为充分释放这一潜力，未来研究应聚焦于开发具备以下能力的智能体框架：动态工具选择、检索规划，以及跨推理工作流的自适应协同调度。这些能力可实现灵活的上下文感知问题求解，对处理多样化复杂任务至关重要。

多模态检索

如基准测试分析所示，当前多数协同式RAG-推理系统仍局限于text-only任务。但现实世界应用日益需要检索与整合多模态内容的能力。未来研究需突破传统的“视觉-文本”范式，实现真正的多模态能力——这要求强化多模态大型语言模型（MLLMs）的基础能力（包括 grounding 与跨模态推理）；此外，通过“多模态思维链推理”增强模型的智能体化能力也至关重要，以支持通过多模态搜索工具与现实世界交互。同时，开发能联合嵌入图像、表格、文本及异构文档的统一多模态检索器也不可或缺。

检索可信度

协同式RAG-推理系统易受“有毒”或误导性外部知识源的对抗性攻击。因此，确保检索内容的可信度是维持下游推理可靠性的关键。水印（watermarking）与数字指纹（digital fingerprinting）等技术已用于提升系统可追溯性，但目前迫切需要更动态、自适应的方法，以应对LLM的演进、新兴攻击技术及模型上下文的变化。现有研究也已分别探索“不确定性量化”与“稳健生成”以提升系统可靠性，未来研究应致力于整合这些方法——二者结合可相互增强系统的稳健性与可信度。此外，未来工作还需扩展现有基准测试，纳入除“准确性”外的多维度可信度指标。

结论

本综述梳理了大型语言模型（LLMs）中检索与推理的快速融合进程。我们回顾了三个演进阶段：（1）推理增强型RAG——利用多步推理优化RAG的各个阶段；（2）RAG增强型推理——借助检索到的知识填补长思维链（CoT）中的事实缺口；（3）协同式RAG-推理系统——单智能体或多智能体通过迭代优化检索与推理过程实现性能提升，近期的“深度研究”平台（如OpenAI、Gemini的相关产品）便是这一阶段的典型例证。这些技术路线共同表明，检索-推理的紧密耦合（相较于单向增强）能显著提升系统的事实依据性、逻辑连贯性与适应性。展望未来，我们明确了构建“更高效、多模态适配、可信且以人为本”的协同式RAG-推理系统的研究方向。

局限性（Limitations）

尽管本综述整合了200余篇关于“RAG与LLM推理”的研究论文，但其范围仍以“广度优先”为导向，而非深度。为提供统一且全面的分类体系，我们未能深入探讨各类方法的技术细节或实现细节——尤其在RAG的特定子领域（如稀疏检索vs密集检索、内存增强检索器）或推理的特定子领域（如形式逻辑求解器、符号方法、长上下文推理）。此外，我们的分类框架（推理增强型RAG、RAG增强型推理、协同式RAG-推理）虽涵盖了多样化方法，但在简化设计模式的同时，可能掩盖了各类方法特有的细粒度权衡、假设与局限性。