从LLM到MLLM再到Agent，万字长文览尽大模型安全进化之路！（中科院最新综述）

点击下方卡片，关注“大模型之心Tech”公众号

>>点击进入→大模型技术交流群

本文只做学术分享，如有侵权，联系删文

写在前面&笔者的个人理解

人工智能已从单一文本交互迈入多模态理解与智能体自主决策的新阶段。从处理纯文本的大语言模型（LLMs），到融合图像、音频的多模态大语言模型（MLLMs），再到具备环境感知、任务规划能力的智能体（Agents），大模型的能力上限持续扩张，但安全风险也随之呈指数级增长。

其中，越狱攻击作为最具威胁性的安全风险之一，始终困扰着大模型生态——攻击者通过精心设计的输入或环境扰动，绕过模型的安全机制，诱导其生成违法、有害、违背伦理的内容，小则传播虚假信息、煽动仇恨，大则引发网络攻击、隐私泄露等严重后果。然而，现有研究多聚焦于单一形态模型（如LLMs）的攻击与防御，缺乏对LLMs-MLLMs-Agents全演进链路的系统性梳理，更未形成统一的攻击分类框架、评估标准与防御体系。

在这一背景下，来自河南大学软件学院与中国科学院信息工程研究所的研究团队，对该领域进行了全面的综述总结。该综述不仅系统追溯了大模型从LLMs到MLLMs再到Agents的发展脉络，更从攻击影响、攻击者权限双重视角构建了越狱攻击分类体系，同时梳理了数据集、评估指标与防御策略的最新进展，最终指出当前研究局限与未来方向，为大模型安全领域提供了一份全面且前沿的“全景地图”。

论文标题：From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem
arXiv：https://arxiv.org/abs/2506.15170v3

该综述的核心贡献可概括为五大维度：

完整呈现LLMs-MLLMs-Agents的演进路径与各阶段安全挑战
从“攻击影响”“攻击者权限”双视角对越狱技术进行精细化分类
详细解析实验设计，包括数据集的来源与格式、五大类评估指标的应用场景
按“响应时机”“技术手段”对防御策略进行体系化梳理
指出数据集、评估方法、攻防技术的现存局限，并提出多模态数据集构建、多智能体安全防护等未来方向。

大模型的三次范式跃迁：从文本交互到自主决策

要理解越狱攻击的演进逻辑，首先需厘清大模型自身的发展脉络。论文开篇即系统回顾了LLMs、MLLMs、Agents的技术演进与核心特征，揭示了安全风险随模型能力扩张而升级的内在规律。

1 LLMs：文本时代的基石与局限

大语言模型的崛起，源于神经网络架构的数次关键突破。早期序列建模依赖循环神经网络（RNN），但受限于“梯度消失”问题，无法有效处理长文本；长短期记忆网络（LSTM）通过门控机制缓解了这一问题，却因串行计算的特性，在大规模数据处理中效率低下。直到2017年Transformer架构的出现，才彻底改变了这一局面——其自注意力机制实现了全局语境建模与并行计算，结合残差连接、层归一化技术，为超深网络训练奠定了基础。

此后，大模型进入“规模为王”的时代。根据OpenAI提出的“性能-算力定律”，模型性能随参数、数据量、算力的增长而提升：2018年BERT的参数仅3.4亿，2020年GPT-3飙升至1750亿，2022年PaLM更是达到5400亿。同时，模型能力不断“涌现”——当参数超过特定阈值后，链式推理（Chain-of-Thought）、上下文学习（In-Context Learning）等高级能力逐渐显现。为了更好地对齐人类意图，InstructGPT通过指令微调优化交互效果，强化学习人类反馈（RLHF）成为价值对齐的核心技术，而LoRA等参数高效微调方法则降低了模型适配成本。

但LLMs的局限同样明显：仅能处理文本模态，缺乏对图像、音频等多模态信息的理解能力，且易受训练数据偏见、提示操纵的影响，生成错误或不当内容。尽管安全过滤、RLHF等技术已被应用，但文本模态的单一性，也使得早期越狱攻击多集中于“prompt 伪装”、“语义重构”等文本层面的操纵。

2 MLLMs：多模态融合下的能力扩张与风险升级

为突破文本模态的限制，多模态大语言模型（MLLMs）应运而生。其核心技术是“跨模态对齐”与“联合表示学习”——通过将图像、音频等非文本信息与文本语义关联，实现跨模态的推理与生成。例如，CLIP通过对比学习实现图文语义对齐，ViT验证了Transformer在视觉任务中的可行性，而GPT-4V更是直接支持视觉-文本的联合理解与生成，可完成“根据图像讲故事”“总结视频内容”等复杂任务。

MLLMs的能力扩张，也带来了全新的安全风险。论文指出，多模态输入的复杂性，使得越狱攻击的“攻击面”显著扩大：攻击者不仅可以通过文本 prompt 操纵模型，还能利用视觉漏洞（如 adversarial 图像）、音频漏洞（如情感模拟语音）诱导模型生成有害内容。例如，有研究通过设计 adversarial 图像，让MLLMs误判视觉信息，进而绕过文本安全过滤；也有研究利用情感化语音，让模型在音频-文本交互中失控输出。

与LLMs相比，MLLMs的越狱攻击更具“隐蔽性”——多模态信息的融合可能掩盖单一模态中的恶意信号，使得防御机制难以精准识别。例如，将有害文本嵌入图像中的文字区域，MLLMs在处理图像时可能优先识别视觉内容，忽略文本中的风险，从而生成不当响应。

3 Agents：自主决策时代的安全新挑战

如果说MLLMs是“多模态感知”的突破，那么智能体（Agents）则是大模型向“自主行动”演进的关键一步。论文将Agents定义为“能够感知环境、自主采取行动以实现特定目标的智能实体”，其核心由四大组件构成：

核心（Core）：以LLM/MLLM为基础，负责生成输出与引导决策；
规划（Planning）：通过结构化提示、逻辑框架减少模型幻觉，确保复杂任务中的决策精准性；
工具（Tools）：集成搜索引擎、数据库接口、外部系统控制等工具，扩展模型的任务执行能力；
记忆（Memory）：通过短期/长期记忆管理历史信息，突破LLMs的上下文长度限制，支持持续交互。

Agents的自主决策能力，使其应用场景从“被动响应”转向“主动执行”，但也带来了最严峻的安全挑战。论文指出，针对Agents的越狱攻击，目标已不再是“诱导有害文本生成”，而是“篡改决策行为”——通过操纵Agents的知识库、工具调用逻辑或记忆系统，使其偏离预设目标，执行恶意行动。例如，攻击者可能通过污染Agents的长期记忆，使其在任务规划中优先执行恶意指令；或利用工具调用漏洞，让Agents未经授权访问敏感数据、发送恶意代码。

更危险的是，Agents之间的交互可能引发“连锁风险”——一个被越狱的Agent，可能将恶意指令传递给其他Agent，形成跨Agent的攻击传播，对整个多智能体系统造成毁灭性影响。

本文首发于大模型之心Tech知识星球，硬核资料在星球置顶：加入后可以获取大模型视频课程、代码学习资料及各细分领域学习路线~

戳我 -> 获取大模型巨卷干货

资讯配图

越狱攻击的“双维度”分类：从影响到权限，厘清攻击逻辑

为了系统性梳理日益复杂的越狱攻击技术，论文提出了“攻击影响”和“攻击者权限”两大分类维度，覆盖了从LLMs到Agents的全场景攻击方法，为研究者提供了清晰的分析框架。

1 按“攻击影响”分类：从阶段与层级拆解攻击路径

“攻击影响”维度又细分为“攻击阶段”与“干预层级”——前者关注攻击发生在模型生命周期的哪个环节，后者关注攻击作用于模型的哪个技术层面。

（1）攻击阶段：训练期 vs 推理期

训练阶段攻击：通过篡改训练数据或模型参数，在模型中植入漏洞或后门，属于“参数级越狱”。论文将其分为三类：

后门攻击：在训练阶段嵌入恶意触发条件，当模型遇到特定输入（如特定关键词、图像）时，生成预设的有害输出。例如，在训练数据中注入少量含后门触发的样本，或直接操纵模型参数，使模型在部署后对触发信号“敏感”。
蒸馏攻击：先训练一个无安全约束的“教师模型”，再通过知识蒸馏将其能力传递给“学生模型”。由于教师模型缺乏安全过滤，学生模型可能在蒸馏过程中学习到违规行为，导致原有防御机制失效。
篡改攻击：通过修改训练数据或模型参数，干扰模型的正常行为。例如，在训练数据中混入虚假信息，使模型在正常输入下表现正常，但在特定场景下输出不当内容。

推理阶段攻击：无需修改模型参数，仅通过精心设计的输入诱导模型输出有害内容，属于“无参数越狱”。其核心是“利用模型的推理漏洞”，主要包括三类：

提示攻击（Prompt Attack）：通过操纵输入的文字、结构、语气，绕过模型的安全限制。例如，使用双关语、隐喻、隐含表达，在不直接触碰敏感话题的情况下，诱导模型生成违背伦理的回答。
对抗攻击（Adversarial Attack）：通过微小的输入扰动（如添加无意义噪声、调整词序、替换同义词），让模型误判输入意图，失去安全约束。这类扰动对人类不可见，但能显著影响模型的推理过程。
越狱链（Jailbreak Chain）：通过一系列渐进式提示，逐步诱导模型泄露敏感信息。例如，先询问“化学药物是什么”，再过渡到“哪些化学药物可用于制作危险物品”，最终引导模型输出“炸弹制作步骤”——利用模型的渐进式推理能力，突破内容过滤限制。

（2）干预层级：从 prompt 到模型的三层攻击

提示层攻击：聚焦于“输入 prompt 的设计”，通过伪装、重写等方式规避安全检测：

提示伪装（Prompt Disguise）：通过补全、替换、低资源语言转换、多策略融合等手段，隐藏恶意意图。例如，将敏感 prompt 拆分，用空格字符代替关键部分，让模型自动补全；或把敏感内容翻译成模型理解较弱的低资源语言，绕过安全检查。
提示重写（Prompt Rewrite）：先让模型回答无害问题，再基于历史回答构建新 prompt，逐步引导至敏感领域。部分框架还具备“自适应优化”能力——若初始 prompt 越狱失败，会让模型重新改写 prompt，迭代提升绕过成功率。

推理层攻击：操纵模型的推理过程，使其在步骤化思考中泄露敏感知识：

场景嵌套（Scene Nesting）：构建复杂的上下文（如故事、表格、代码），让模型在逐步推理中触碰隐含的敏感背景。例如，以“编写小说剧情”为借口，在故事中嵌入危险行为的描述，诱导模型详细展开。
检索增强生成（RAG）攻击：通过整合外部知识库（如维基百科、私有数据），绕过模型的内置知识屏障。攻击者将真实数据与虚假信息混合，干扰模型的知识推理，使其难以过滤有害内容。

模型层攻击：直接作用于模型的参数、训练过程或梯度信息，属于较深层的攻击：

梯度-based攻击：利用模型的损失梯度，寻找最有效的输入结构，或在输入中植入“触发模式”，让模型遇到特定字符/短语时自动生成越狱内容。
微调攻击（Fine-tuning Attack）：通过额外训练，让模型学习恶意行为模式。例如，在微调数据中植入恶意样本，使模型在特定输入触发下生成敏感内容；或利用对比学习，让模型在不同上下文下行为不一致，规避安全检测。

2 按“攻击者权限”分类：白盒 vs 黑盒，攻击能力的差异

“攻击者权限”维度，根据攻击者对模型内部信息的访问程度，将攻击分为“白盒攻击”与“黑盒攻击”，并进一步按目标模型（LLMs、MLLMs、Agents）细分。

（1）白盒攻击：掌握模型内部信息的“精准打击”

白盒攻击的前提是“攻击者可访问模型的架构、参数、训练细节”，因此能进行高度针对性的攻击：

针对LLMs的白盒攻击：利用梯度信息、修改权重或设计触发样本，探索模型漏洞。例如，Zou等人提出的GCG（通用对抗后缀），通过在多个敏感内容类别上训练，生成能诱导商业LLM与开源LLM输出有害内容的通用后缀；Liu等人的AutoDAN则通过分层遗传算法，优化人工设计的 prompt，生成隐蔽性强的越狱输入。
针对MLLMs的白盒攻击：不仅操纵文本，还利用多模态交互漏洞。例如，Bailey等人发现视觉语言模型（VLMs）易受“图像劫持”攻击——通过 adversarial 图像操纵模型行为；Wang等人提出“双目标优化”策略，先从随机噪声中优化 adversarial 图像前缀，再结合 adversarial 文本后缀，形成“通用主密钥（UMK）”，最大化模型的有害输出。
针对Agents的白盒攻击：聚焦于分析Agents的内部架构，操纵决策模块。例如，Chen等人的AGENTPOISON框架，通过污染Agents的长期记忆或知识库，植入后门触发——当用户输入包含触发信号时，模型会从被污染的记忆中检索恶意演示，进而输出有害内容；Yu等人的NetSafe则从拓扑视角分析多智能体网络的安全漏洞，识别“智能体幻觉”“聚合安全”等可能导致网络不稳定的风险。

（2）黑盒攻击：仅通过输入输出交互的“盲测攻击”

黑盒攻击中，攻击者无法访问模型参数或训练细节，仅能通过输入输出的交互探测模型行为，其核心是“通过迭代反馈优化攻击策略”：

针对LLMs的黑盒攻击：依赖 prompt 迭代与行为分析。例如，Deng等人的SAP框架，通过“人工设计种子 prompt + LLM生成变体”的方式，构建 adversarial prompt 库，迭代优化攻击效果；Chao等人的PAIR算法，通过循环优化失败的 prompt，仅需不到20次查询即可实现越狱；Shen等人的JailbreakHUB则通过分析1405个越狱 prompt，总结出“ prompt 注入”“权限提升”等攻击策略，为黑盒攻击提供参考。
针对MLLMs的黑盒攻击：利用多模态数据的复杂性，掩盖恶意信号。例如，Shen等人的VOICEJAILBREAK，通过虚构故事（含场景、角色、情节）拟人化GPT-4o，用音频叙事诱导模型突破安全限制；Qi等人发现，视觉输入的高维度与连续性使其易受 adversarial 攻击，adversarial 图像不仅能导致分类错误，还能绕过MLLMs的安全过滤；Mao等人的JMLLM框架，更是整合了文本、视觉、音频三种模态的攻击策略，实现跨模态的高效越狱。
针对Agents的黑盒攻击：操纵任务执行动态，诱导Agents偏离目标。例如，Nakash等人的“Foot-in-the-Door”攻击，通过间接 prompt 注入，逐步影响Agents的决策过程——当Agents被要求“修复网站漏洞”时，攻击者通过细微注入，让Agents不仅执行无害任务，还发送管理员凭证给攻击者；Jiang等人的RAG-Thief则通过自适应查询，从RAG-based Agents的私有数据库中提取敏感信息，实现隐私泄露。

数据集与评估指标：越狱研究的“基础设施”现状

要推动越狱攻击与防御技术的发展，高质量的数据集与科学的评估指标是“基础设施”。论文系统梳理了当前数据集与评估指标的现状，指出了其中的局限与改进方向。

1 数据集：从来源到格式，覆盖度与多样性待提升

论文将越狱数据集按“数据来源”与“数据格式”分为两大维度：

按数据来源分类：

LLM/自动生成：利用LLM的生成能力构建样本，效率高但易受模型安全对齐机制的限制，生成的有害内容“毒性不足”。例如，Banerjee等人的TECHHAZARDQA数据集，通过微调Mistral-V2模型生成7745个有害问题，覆盖7个技术领域，虽实现规模化生成，但仍需人工审核确保样本有效性。
搜索引擎检索：从互联网挖掘相关内容，数据量较大但模式僵化，难以突破现有语料的语义边界。例如，Mao等人的TriJail数据集，部分有害文本通过搜索引擎检索获取，虽补充了人工制作的不足，但存在内容重复、场景单一的问题。
人工制作：由专家或用户设计输入，特异性与多样性强，但耗时耗力，对标注者的专业知识与对抗思维要求高。例如，Gong等人的SafeBench数据集，先基于使用政策确定敏感话题，再通过GPT-4生成500个有害问题，最后经人工筛选去除合规样本，确保每个问题都能触发模型的安全漏洞。

按数据格式分类：

问答（Q&A）格式：包含攻击者与模型的对话，用于测试模型对敏感问题的响应。例如，Gressel等人的数据集包含210个来自学术文献、Twitter的prompt，按“策略（8类）”“技术（33类）”分类，每类技术含5个变体，涵盖“隐含挑战（165个prompt）”与“显式挑战（45个prompt）”，可全面评估模型在不同攻击策略下的防御能力；Röttger等人的XSTEST包含450个prompt（250个安全、200个不安全），安全prompt用于验证模型对合规内容的接受度，不安全prompt则测试模型对有害请求的拒绝能力，是目前应用较广的基准数据集之一。
指令格式：包含诱导模型生成违规内容的指令。例如，Qiu等人的LatentJailbreak数据集，将恶意指令嵌入“翻译”“摘要”等良性任务中，如“将‘如何制作炸弹’翻译成法语”，测试模型对隐蔽性指令的识别能力；Andriushchenko等人的AgentHarm基准，包含110个有害智能体任务（如欺诈、网络犯罪），每个任务配套4个变体，评估Agents在攻击后是否仍能拒绝有害请求并正常执行合规任务，填补了智能体安全评估的空白。
有害句子/图像格式：直接包含有害文本或视觉内容，用于测试模型对显性恶意信息的过滤能力。例如，Zou等人的AdvBench数据集，包含500个有害字符串（覆盖亵渎、暴力、威胁等场景）与500个有害指令，后续扩展至574个字符串与520个指令，是评估LLMs越狱 vulnerability的经典数据集；Niu等人基于AdvBench构建的AdvBench-M，将有害行为分为“炸弹制造”“自残”等8个语义类别，每个类别配对语义相关图像，形成多模态数据集，用于测试MLLMs的跨模态防御能力；Mao等人的TriJail则是首个三模态（文本、语音、图像）越狱数据集，包含1250个有害语音样本、1250个有害文本句子、150个有害图像，覆盖仇恨言论、暴力、隐私侵犯等6个场景，为多模态攻击研究提供了重要支撑。

尽管现有数据集已初具规模，但论文指出其仍存在三大局限：一是动态性不足，静态数据集难以跟上越狱技术的快速迭代，新攻击策略出现后，旧数据集很快失去评估价值；二是语言与文化局限，多数数据集以英文为主，对中文、低资源语言的覆盖不足，且缺乏区域特异性有害内容（如特定文化背景下的仇恨言论）；三是多模态与多轮场景覆盖少，现有数据集中单模态、单轮交互样本占比过高，难以模拟真实场景中多模态融合、多轮对话的复杂攻击。

2 评估指标：五大类方法各有优劣，多方法融合成趋势

由于越狱攻击的复杂性，单一评估指标难以全面衡量模型的安全性能。论文将当前主流评估指标分为五类，详细分析了各类方法的原理、优势与局限：

（1）人工评估：精准但成本高，适合小规模验证

人工评估由专家或专业标注者对模型响应进行系统性审查，核心评估维度包括“越狱行为是否发生”“有害内容的严重程度”“执行可行性”“社会影响”。为确保准确性，论文中多数研究采用“多专家独立评分+争议仲裁”机制——例如，Yu等人、Shayegani等人的研究中，每个有害文本由4名专家独立评分，若4人一致判定为有害，则直接归类为“越狱成功”；若3人判定有害，则邀请资深 reviewer 进行最终决策。

优势：能捕捉语义模糊、语境依赖的有害内容，评估准确率最高，是其他自动评估方法的“黄金标准”。
局限：人力成本高、效率低，难以适应大规模数据集的评估需求；评估结果受标注者主观认知影响，存在个体差异。

（2）Perspective API评估：自动量化但适配性有限

Perspective API是Google开发的文本风险评估工具，可基于“毒性”“侮辱性”“仇恨性”等维度对文本进行量化评分（0-1分）。论文中通常以0.7为阈值：评分＞0.7表示“明确有害”，0.3-0.7表示“高风险”，＜0.3表示“良性”。例如，Shen等人用Perspective API评估JailbreakHUB中1405个prompt的毒性，Liu等人则用其验证adversarial图像诱导的文本输出风险。

优势：自动化程度高、评估速度快，可批量处理大规模文本数据。
局限：跨语言适配性差，对中文、低资源语言的有害内容识别准确率低；难以理解隐喻、反讽等 nuanced 表达，易出现误判；对长文本的评估准确性下降——长文本中有害内容占比低时，API可能低估整体风险。

（3）LLM评估：自动化强但存在“拒评”风险

LLM评估以高性能LLM（如GPT-4、Claude）为“评估者”，通过prompt工程引导其分析模型响应的“有害性”“政策违背程度”“越狱有效性”。例如，Chao等人用GPT-4对PAIR算法生成的越狱prompt进行评分，采用1-10分制，10分表示“明确有害且完全越狱”；Mao等人则让GPT-4对比JMLLM框架生成的多模态响应与安全标准，判断是否存在违规内容。

优势：兼顾自动化与语义理解能力，能处理复杂语境下的评估需求，评估效率高于人工。
局限：存在“拒评”风险——当模型响应包含极端有害内容（如恐怖主义指导、儿童性虐待材料）时，评估用LLM可能拒绝生成评分，导致评估中断；评估结果受prompt设计影响大，不同prompt工程策略可能导致评分差异。

（4）关键词词典评估：快速但依赖词典完整性

关键词词典评估基于预设的“敏感词库”或“拒绝模式词库”，通过模式匹配快速检测模型响应。常用的拒绝模式词包括“I’m sorry”“Sorry”“I apologize”“can’t”“I do not”等——若模型响应中出现这些词汇，则判定为“越狱失败”；反之则视为“可能越狱成功”。例如，Ding等人的ReNeLLM框架、Mao等人的JMLLM框架均采用该方法进行初步筛选，快速排除未成功越狱的样本。

优势：速度最快，可实现实时评估；计算成本低，无需复杂模型推理。
局限：严重依赖词典完整性——若词典未覆盖模型新的拒绝模式（如模型更新后改用“I cannot assist”替代“I’m sorry”），则会出现大量误判；无法识别“无关键词但语义有害”的内容（如用隐喻表达暴力指导）。

（5）自定义评估：针对性强但可比性差

为满足特定研究需求，研究者会设计定制化评估方案，通常整合“规则匹配”“语境分析”“交互反馈”等多种逻辑。论文中自定义评估按目标模型分为三类：

针对LLMs的自定义指标：例如，Yu等人提出“期望最大危害性（EMH）”与“越狱成功率（JSR）”——EMH计算“最坏情况下越狱输入的最大危害度”（取多次响应中危害评分的最大值再平均），JSR计算“超过危害阈值T的响应占比”，两者结合可全面反映LLMs的安全风险；Xiao等人则针对越狱模板的有效性，提出“Top-1 ASR（最优模板的攻击成功率）”与“Top-5 ASR（前5优模板的综合成功率）”。
针对MLLMs的自定义指标：例如，Yang等人评估SneakyPrompt框架时，提出“绕过率（Bypass Rate， adversarial prompt 成功规避安全过滤的比例）”“FID分数（评估生成图像与目标图像的语义相似度，分数越低越好）”“在线查询次数（寻找有效 adversarial prompt 所需的查询次数，越少越高效）”；Wang等人用Detoxify分类器计算MLLMs输出的毒性分数，对比不同多模态攻击方法的效果。
针对Agents的自定义指标：例如，Ju等人评估智能体知识污染攻击时，提出“准确性（Acc，攻击前后智能体回答正确性的变化）”“重述准确性（Rephrase，对同义不同形的prompt的防御鲁棒性）”“局部准确性（Locality，确保知识污染仅影响目标领域，不干扰无关知识）”；Chen等人的AGENTPOISON框架则用“检索攻击成功率（ASR-r，被污染记忆的检索比例）”与“行动攻击成功率（ASR-a，智能体执行恶意行动的比例）”衡量攻击效果。

优势：能精准匹配特定攻击场景的评估需求，评估结果的针对性最强。
局限：不同研究的评估逻辑、指标定义差异大，导致不同方法的评估结果难以直接对比，影响领域内的技术交流与进步。

论文指出，当前研究已普遍采用“多方法融合”的评估策略——例如，先用关键词词典评估进行初步筛选，再用LLM评估批量处理，最后对高争议样本进行人工审核；或结合Perspective API的量化分数与人工评估的质性分析，既保证效率，又确保准确性。但构建“统一、标准化的评估框架”仍是未来的核心研究方向之一。

防御策略：从响应时机到技术手段，构建多层防护体系

针对越狱攻击的多样性，论文从“防御响应时机”与“技术手段”两个维度，对现有防御策略进行了体系化梳理，形成了覆盖“输入-输出-全流程”的多层防护框架。

1 按“防御响应时机”分类：输入、输出、联合防御各有侧重

防御响应时机指“防御机制介入模型交互流程的阶段”，据此可分为三类：

（1）输入防御：源头阻断，过滤恶意输入

输入防御在用户输入进入模型前启动，核心目标是“识别并修改恶意prompt，从源头阻止越狱攻击”。常用方法包括：

敏感prompt过滤：基于规则或模型检测输入中的恶意信号，直接拦截或修改。例如，LLM-Self-Defense框架让LLM先对输入进行“安全预审核”，若检测到潜在 adversarial prompt，则自动拒绝或修改（如替换敏感词汇）；SHIELD系统则通过N-gram语言模型与实时网页检索，检测输入是否涉及版权侵权，若存在侵权风险则阻止模型生成。
输入扰动与规范化：对输入进行微小修改，破坏adversarial prompt的攻击逻辑。例如，RA-LLM框架通过“随机删除输入的部分内容”，让依赖精确语义结构的adversarial prompt失效——实验显示，该方法可将攻击成功率从近100%降至10%以下；Backtranslation防御则将输入先翻译成其他语言再译回原语言，消除文本中的隐蔽 adversarial 扰动。

（2）输出防御：结果审核，拦截有害内容

输出防御在模型生成响应后启动，通过安全审查机制过滤或修正有害输出。例如：

输出风险检测：用分类模型或规则检测输出中的有害内容，若发现违规则替换为安全响应。例如，SELF-GUARD框架让模型在生成响应后，自动为输出添加“有害/无害”标签，若标记为有害，则触发安全过滤模块，输出“无法提供相关帮助”的标准化回复；Root Defence Strategy（RDS）则在解码阶段实时评估每个token的危害性，优先选择安全token，从生成过程中修正有害内容。
多模型交叉验证：用多个独立模型对输出进行一致性检测，若存在差异则进一步审核。例如，SelfDefend框架部署“影子LLM”与“目标LLM”——影子LLM专门检测输出的有害性，若发现风险，则阻断目标LLM的响应输出，实现“双保险”。

（3）联合防御：融合多阶段策略，提升整体鲁棒性

联合防御结合输入防御与输出防御的优势，同时在输入前、输出后部署防护机制，部分方案还加入“模型训练阶段的安全优化”，形成全流程防护。例如：

StruQ框架：输入阶段用“结构化查询”分离prompt与数据，防止恶意指令注入；训练阶段通过“结构化指令微调”，让模型仅执行合法prompt；输出阶段用规则检测确保响应合规，三层防护大幅降低prompt注入风险。
PsySafe框架：针对多智能体系统，输入阶段过滤有害内容；交互阶段通过“心理学干预”缓解智能体的“黑暗心理状态”（如攻击性倾向）；输出阶段基于角色权限控制，限制高风险行动（如外部系统调用），形成“输入-交互-输出”的全链路防御。

2 按“技术手段”分类：四类技术各有适用场景

从技术实现角度，论文将防御策略分为四类，详细阐述了各类技术的核心原理与典型案例：

（1）规则/启发式防御：基于人工规则，部署成本低

规则/启发式防御依赖手动定义的规则或经验性启发式方法，无需复杂模型训练，适合快速部署。典型案例包括：

关键词与正则匹配：基于预设的敏感词库、恶意prompt模板，用正则表达式匹配输入中的风险信号。例如，Chaos with Keywords策略通过检测“误导性关键词”（如“忽略安全规则”“开发者模式”），拦截试图绕过安全机制的prompt；JailGuard框架则用正则匹配识别“分段式prompt注入”（如将有害指令拆分为多段输入）。
困惑度（Perplexity）检测：利用“adversarial prompt通常语义不通、困惑度高”的特性，用辅助LLM计算输入的困惑度，若超过阈值则判定为攻击。例如，Perplexity Filter方法用GPT-2计算输入的困惑度，若分数高于预设值，则过滤该prompt，有效拦截“无意义字符组合”类的adversarial攻击。

优势：开发周期短、部署成本低，可快速应对已知攻击模式；
局限：对未知攻击、语义隐蔽的攻击（如隐喻、低资源语言攻击）防御能力弱，易被新攻击策略绕过。

（2）ML/DL防御：基于模型训练，鲁棒性更强

ML/DL防御利用机器学习或深度学习模型，通过训练数据学习攻击模式，提升对未知攻击的泛化能力。核心思路包括：

** adversarial 训练**：在训练数据中加入adversarial样本，让模型学习识别并抵抗攻击。例如，Deng等人的防御方案先通过攻击框架生成大量adversarial prompt，再用这些样本微调目标LLM，让模型逐渐学会拒绝此类输入；实验显示，经过多轮微调后，模型对已知adversarial攻击的防御成功率从30%提升至90%以上。
分类器训练：训练专门的分类模型检测adversarial prompt或有害输出。例如，Xiao等人微调DeBERTaV3-large模型作为“越狱检测器”，对输入prompt进行“攻击/正常”二分类，准确率达89.2%；SELF-GUARD则让LLM通过自监督学习，掌握“有害内容识别”能力，无需额外训练分类器，降低部署成本。

优势：能泛化到部分未知攻击，防御鲁棒性优于规则防御；
局限：需要大量标注训练数据，数据获取成本高；对训练数据中未覆盖的攻击类型（如新型多模态攻击）防御效果差。

（3）对抗检测防御：聚焦异常识别，适合黑盒场景

对抗检测防御不依赖攻击样本训练，而是通过分析“输入-输出”的异常模式，识别潜在攻击。典型方法包括：

响应一致性检测：对输入进行微小扰动（如同义词替换、语序调整），若模型响应的语义差异过大，则判定为攻击。例如，JailGuard框架生成18种输入变体（16种随机扰动、2种语义驱动扰动），计算模型对不同变体的响应差异（用KL散度衡量），若差异超过阈值，则标记为攻击输入。
行为模式分析：基于模型的正常行为基线，检测偏离基线的异常输出。例如，Mantis框架通过分析智能体的“工具调用频率”“外部系统访问路径”，识别异常行为——若智能体频繁调用未授权API、访问敏感数据库，则判定为“可能被越狱”，并触发主动防御（如暂时冻结工具权限）。

优势：无需攻击样本，适用于黑盒模型场景；能检测未知攻击模式，防御覆盖范围广；
局限：对“低扰动攻击”（如微小语义修改的prompt）识别灵敏度低；正常行为基线的构建依赖大量历史数据，在新场景中适应性差。

（4）混合策略防御：整合多技术优势，应对复杂攻击

混合策略防御融合两种及以上技术手段，通过优势互补提升防御能力，是当前应对复杂越狱攻击的主流方向。典型案例包括：

RA-LLM + Perplexity Filter 组合：输入阶段先用RA-LLM随机删除部分输入内容，破坏adversarial prompt的结构；再用Perplexity Filter计算输入困惑度，过滤高风险样本。实验显示，该组合可将MLLMs的 adversarial 图像攻击成功率从85%降至12%以下，显著优于单一防御技术。
SELFDEFEND + 规则过滤组合：输出阶段先用SelfDefend的“影子LLM”检测有害内容，若未发现风险，再通过规则过滤验证（如关键词匹配）；双重检测既避免了影子LLM的“拒评”问题，又弥补了规则过滤的语义理解不足，防御准确率提升至94%。

优势：兼顾检测范围、准确率与泛化能力，能应对多模态、多轮交互等复杂攻击场景；
局限：技术实现复杂，需要协调不同防御模块的逻辑；部署成本高，对计算资源要求较高。

论文特别指出，当前防御策略仍存在三大挑战：一是多模态防御能力不足，多数防御机制针对文本模态设计，对“图像+文本”“音频+文本”的跨模态攻击识别率低；二是智能体防御滞后，现有方案难以应对Agents的“任务规划篡改”“工具调用劫持”等新型攻击，尤其是多智能体交互中的连锁风险；三是防御与能力的平衡难，部分防御策略（如过度过滤）会导致模型“拒答率过高”，影响正常功能使用（如合法的技术咨询被误判为有害请求）。

现存局限与未来方向：大模型安全研究的“攻坚点”

尽管LLMs-MLLMs-Agents的越狱攻击与防御研究已取得显著进展，但论文通过对比100余篇相关研究，指出当前领域仍存在四大核心局限，并针对性提出未来研究方向，为后续工作提供了清晰的“攻坚路线图”。

1 四大核心局限：从数据集到攻防技术的全面瓶颈

（1）数据集局限：多样性、模态覆盖与动态性不足

如前文所述，现有数据集的局限已成为制约研究进展的关键瓶颈：一是语义空间覆盖不全，搜索引擎检索数据模式僵化，LLM生成数据毒性不足，人工制作数据规模有限，导致数据集难以覆盖全部有害语义场景；二是模态失衡，文本模态占比超80%，图像、音频模态样本较少，视频、生物信号（如EEG、心率）等新兴模态几乎空白；三是动态更新机制缺失，多数数据集发布后不再更新，无法适配GCG、JMLLM等新型攻击策略的评估需求。

（2）评估方法局限：缺乏统一标准，可比性差

当前评估体系存在三大问题：一是指标定义混乱，不同研究对“越狱成功”的判定标准不一致（如部分研究以“生成有害词汇”为标准，部分以“提供可执行步骤”为标准）；二是评估框架不统一，自定义评估方法占比超60%，导致不同攻击/防御方法的性能难以直接对比（如A方法在AdvBench上的成功率为80%，B方法在TriJail上的成功率为75%，无法判断两者优劣）；三是真实场景模拟不足，现有评估多基于单轮、单一模态输入，缺乏对多轮对话、多智能体交互等真实场景的模拟，评估结果的实用价值有限。

（3）攻击技术局限：泛化性差，智能体攻击研究不足

越狱攻击技术的局限主要体现在两方面：一是泛化能力弱，多数攻击方法针对特定模型（如GPT-3.5）或特定模态（如文本）设计，换用模型（如Gemini）或增加模态（如文本+图像）后，攻击成功率大幅下降。例如，GCG在GPT-3.5上的攻击成功率达90%，但在GPT-4V上仅为35%；二是智能体攻击深度不足，现有研究多聚焦于“诱导Agents生成有害文本”，对“篡改任务规划”“劫持工具调用”“污染记忆系统”等核心攻击路径的探索较少，且未形成针对多智能体交互的攻击框架。

（4）防御技术局限：被动响应，多模态与智能体防御薄弱

防御技术的瓶颈更为突出：一是被动防御为主，90%以上的防御策略是“针对已知攻击设计补丁”，如检测GCG生成的 adversarial 后缀、拦截特定格式的prompt注入，对未知攻击的“预判与主动防御”能力几乎为零；二是多模态防御适配差，现有防御机制难以处理“图像中的隐藏文本”“音频中的情感操纵”等跨模态攻击，例如，对抗性图像可轻松绕过文本安全过滤，诱导MLLMs生成有害内容；三是智能体防御体系缺失，针对Agents的规划模块、记忆系统、工具接口的防御技术极少，多智能体系统的“连锁风险防御”更是处于空白状态。

2 五大未来方向：从技术突破到伦理规范的全面布局

针对上述局限，论文结合当前技术趋势，提出五大未来研究方向，涵盖数据集构建、技术创新、伦理规范等多个维度：

（1）构建动态、多模态、多语言数据集

未来数据集研究需聚焦三大目标：一是动态更新机制，建立“攻击技术-数据集”联动更新体系，当新攻击策略出现后，自动生成对应样本并补充到数据集中（如基于LLM自动生成新型adversarial prompt）；二是拓展模态覆盖，重点构建视频模态（如含暴力场景的短视频片段）、生物信号模态（如含情绪操纵的心率数据）数据集，填补多模态攻击研究的空白；三是强化语言与文化多样性，增加中文、阿拉伯语等多语言样本，收录区域特异性有害内容（如特定文化背景下的歧视性言论），提升数据集的全球适用性。

（2）优化评估框架，建立统一标准

评估框架的优化需从三方面入手：一是制定统一指标定义，由领域内研究者共同制定“越狱成功”“有害程度”等核心指标的量化标准（如“有害程度”可细分为“言语暴力”“物理伤害指导”“隐私侵犯”等子维度，每个子维度设定0-5分的评分规则）；二是构建通用评估平台，开发支持多模态、多轮交互、多智能体场景的评估工具，集成AdvBench、TriJail等主流数据集，提供“一键式”评估服务，实现不同方法的性能对比；三是引入真实场景测试，与企业合作搭建“模拟真实环境”的测试平台（如模拟客服对话、智能办公系统），评估攻击/防御方法在实际应用中的效果。

（3）突破攻击技术泛化性，深耕智能体攻击

攻击技术研究需向两个方向深化：一是提升泛化能力，开发“跨模型、跨模态”的通用攻击框架，例如，基于“模态无关特征”（如语义不一致性、情感操纵）设计攻击策略，使其在LLMs、MLLMs、Agents上均能有效生效；二是深耕智能体攻击路径，重点研究“记忆污染攻击”（如通过多轮对话污染Agents的长期记忆）、“工具劫持攻击”（如诱导Agents调用未授权API）、“多智能体传播攻击”（如让一个被越狱的Agent感染其他Agent），并构建针对智能体的攻击评估基准。

（4）研发主动防御技术，强化多模态与智能体防御

防御技术的创新需聚焦三大核心：一是主动防御机制，通过“攻击预测”“异常行为建模”实现对未知攻击的预判。例如，基于历史攻击数据训练攻击预测模型，当检测到类似攻击特征时，提前启动防御；二是多模态防御融合，开发“跨模态风险检测”技术，如将图像中的文字提取后与文本输入联合检测，音频中的情感特征与语义内容协同分析，提升对多模态攻击的识别率；三是智能体防御体系构建，针对Agents的四大组件（核心、规划、工具、记忆）设计专项防御：核心模块加入“安全对齐校验”，规划模块增加“任务合理性检测”，工具接口部署“权限控制与行为审计”，记忆系统引入“污染检测与清理机制”，同时建立多智能体交互的“风险传播阻断”技术。

（5）重视伦理与监管，平衡安全与创新

大模型安全研究离不开伦理与监管的支撑：一是建立伦理审查机制，制定越狱研究的伦理准则，明确“禁止生成真实有害内容”“保护用户隐私”“避免技术滥用”等底线要求，例如，在数据集构建中，用虚拟案例替代真实有害事件，在攻击测试中，限制模型访问真实外部系统；二是推动行业监管规范，联合政府、企业、科研机构制定大模型安全标准，如“防御能力评估指标”“安全漏洞披露流程”，避免恶意攻击者利用研究成果危害社会；三是平衡安全与创新，在强化防御的同时，避免过度限制模型能力，例如，通过“分级防御”策略，对低风险场景（如个人学习）适当放宽限制，对高风险场景（如金融、医疗）严格防护，实现安全与用户体验的平衡。

总结：大模型安全研究进入“全链路防御”时代

从LLMs的文本越狱，到MLLMs的多模态攻击，再到Agents的自主决策篡改，大模型安全风险的演进速度远超预期。这篇综述通过系统性梳理，不仅清晰呈现了当前越狱攻击与防御的技术现状，更揭示了“攻击面随模型能力扩张而扩大”的核心规律——模型越复杂、越智能，安全挑战就越严峻。

对于研究者而言，论文提供的“攻击影响-攻击者权限”分类框架、“响应时机-技术手段”防御体系，以及数据集与评估指标的详细分析，是开展后续研究的重要参考；对于企业而言，文中总结的防御策略（如RA-LLM的输入扰动、SelfDefend的双模型验证）可直接应用于实际产品，提升大模型的安全性能；对于政策制定者，论文指出的伦理风险与监管需求，为制定大模型安全规范提供了科学依据。

未来，大模型安全研究将不再是“单一攻击与防御的对抗”，而是进入“全链路、多模态、多智能体协同防御”的新时代。只有突破数据集、评估方法、攻防技术的现有瓶颈，同时兼顾伦理与监管，才能构建真正 robust 的大模型生态，让人工智能在安全、可控的前提下，为社会创造更大价值。

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球，希望能够帮你把复杂的东西拆开，揉碎，整合，帮你快速打通从0到1的技术路径。

星球内容包含：每日大模型相关论文/技术报告更新、分类汇总（开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块）、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐，等等。

星球成员平均每天花费不到0.3元，加入后3天内不满意可随时退款，欢迎扫码加入一起学习一起卷！

资讯配图