ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法

机器之心 2025-07-31 16:58
资讯配图


第一作者武骁睿,武汉大学计算机学院博士一年级生,研究大语言模型安全对齐与红队数据生成,侧重低资源场景的对齐策略与风险覆盖。导师:李庄讲师(RMIT,低资源 NLP、计算社会科学、模型安全),姬东鸿教授、李霏副教授、腾冲副教授(武汉大学,情感计算、信息抽取)。合作单位蚂蚁集团、蚂蚁国际,合作作者张欣主任工程师、毛潇锋工程师。


大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。缺乏后两者会导致风险覆盖不足:模型在看似通过测试的情况下,仍可能在陌生场景或复杂攻防对抗中暴露漏洞。


TRIDENT 针对这一痛点,首次提出「词汇-恶意意图-越狱策略」三维多样化框架。通过 persona-based + zero-shot 的自动生成范式,配合六大越狱技术,能够以低成本、大规模地产出高质量、高覆盖的红队数据,为后续的监督微调(SFT)或直接偏好优化(Direct Preference Optimization, DPO)等提供更加稳健的安全训练材料。


资讯配图



与传统依赖专家或众包人工编写红队指令的方式相比,TRIDENT 极大降低了人工依赖;与仅围绕单一维度做数据增强的方法相比,TRIDENT 在多项安全基准上显著提升了模型的拒绝能力和对抗鲁棒性。


资讯配图

图 1 TRIDENT-CORE 与各基线数据集在 14 类意图域的覆盖对比


主要贡献






问题背景


自 ChatGPT 引爆关注以来,业界与学界在「安全指令微调」方面投入了大量精力,但仍面临三大顽疾:





这导致即便模型通过了现有 benchmark,也难以在真实线上流量或新型越狱攻击面前保持稳健。


方法设计


「场景 -> 人格 -> 指令」三级生成首先利用无审查 LLM 在 14 大高风险领域生成细粒度情境描述;然后让同一模型推理出符合情境的 Persona(角色、职业、动机等);最后通过角色扮演生成与 Persona 相匹配的恶意指令,从而自然引入词汇与意图多样性。


六大越狱方法注入Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重写、Persona Modulation、RENELLM 复杂变换。通过在原指令上随机叠加这些策略,增强攻击穿透力并扩大策略覆盖面。


两阶段过滤先用 LLAMA-GUARD-3 做安全判别,确保指令确实「危险」;再用 Self-BLEU 去重,删除文本相似度 > 阈值的样本,保证词汇多样性。


安全回复生成采用带链式思考的安全模板,分三步(指出风险 -> 共情安抚 -> 正向引导)生成守规且有用的回复,为后续 SFT 提供正反示例。


资讯配图

图 2 TRIDENT 自动化数据生成流水线(pipeline)


实验结果


基准对比在 HarmBench、XS-Test、AdvBench、SC-Safety 等 7 个公开基准上,与 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大数据集相比,TRIDENT-EDGE 微调模型的平均 Harm Score 最低,Attack Success Rate 最低,同时 Helpful Rate 与最佳基线持平或更优。


消融分析逐次移除词汇、意图、越狱三个维度后,再微调并评测——无论去掉哪一维度,模型在所有安全指标上均显著退化,其中去掉越狱策略时 Attack Success Rate 上升最明显(+11.3%)。


越狱攻击评估将六种越狱策略单独或组合应用于 TRIDENT-CORE 指令,对七大主流 LLM(Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等)发起攻击;组合策略下成功率平均提升 25%,说明多策略融合能更全面暴露模型弱点。


资讯配图

1 TRIDENTEDGE 与基线在 7 个安全基准的评测结果(节选文章Table 4)


资讯配图

表 2 六种越狱策略对红队指令攻击成功率的提升效果(节选文章 Table 5)


突破意义


TRIDENT 为 LLM 安全对齐提供了首个三维多样化自动化生成范式,兼顾高覆盖、低成本与可持续迭代。其框架与数据可直接集成至 RLHF / DPO / RLAIF 等训练流水线。对于缺乏安全标注团队的研究者而言,TRIDENT-CORE 作为「即插即用」的安全微调底座数据,可显著降低安全研究的门槛,加速可信 AI 的大规模落地。


我们相信,多维度、多样化的安全数据共建,将成为下一阶段促进大模型可信生态的关键基础设施。值得强调的是,TRIDENT 并非「一次性」数据集,而是可随模型版本、威胁情报和法规更新而持续演进的生成框架,这使其在快速变化的攻防环境中始终保持前沿适应性,为产业界和学术界提供长久价值。


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
安全
more
美20名安全专家联名要求撤回H20在华销售许可
6名大学生殒命,涉事企业却曾是安全“典范”
自动驾驶车辆的敏捷安全档案
商用车智能辅助驾驶遇“安全紧箍咒”,如何打破信任危机?
180km/h贴地飞行,20km/h翻车无惧,新能源车的安全“硬实力”!
突发!英伟达被约谈,H20存在严重安全漏洞?
这应该是史上最离谱的 “ 安全漏洞 ” 了!
运营商逐步恢复eSIM业务,通信专家:安全性待检验,国内电信诈骗太猖獗
ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
叉车安全不容忽视,透过事故学安全叉车安全不容忽视,隐患无处不在,牢记安全第一
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号