当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

机器之心 2025-10-16 15:34
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图1


该文第一作者是清华大学博士生董建硕,研究方向是大语言模型运行安全;该文通讯作者是清华大学邱寒副教授;其他合作者来自南洋理工大学和零一万物。


在 AI 发展的新阶段,大模型不再局限于静态知识,而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制,但它们返回的并非总是高质量的资料:一个低质量网页、一条虚假消息,甚至是暗藏诱导的提示,都可能在用户毫无察觉的情况下被模型「采纳」,进而生成带有风险的回答。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图2



从真实案例切入:一次价值 2500 美元的「搜索错误」


24 年 11 月,在 Twitter 上有一个这样的案例:有开发者直接复制了 ChatGPT 生成的代码片段,但该片段源自一个搜索过程不可靠的 GitHub 页面。结果,他的私钥被意外泄露,最终损失了约 2500 美元


这一事件揭示了问题的本质:搜索服务并不总是返回高质量、可信的网页,而用户往往难以分辨其中的潜在风险。这也意味着,Search Agent 一旦「轻信」了搜索结果,风险会迅速传递给终端用户


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图3

图 1: LLM 服务可能由于互联网来源的不可靠搜索结果而返回不安全的代码。图源:https://twitter-thread.com/t/1859656430888026524


搜索智能体:强大但脆弱的新范式


随着 ChatGPT Search、Gemini Deep Research 等产品的兴起,搜索智能体逐渐成为大模型的重要形态。与传统的检索增强生成(RAG)不同,搜索智能体直接调用搜索引擎,实时获取互联网上的最新信息


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图4

图 2: RAG 和 Search Agent 在技术特点上的对比


这种模式虽然突破了大模型知识时效性的限制,但同时也引入了一个新的威胁面:搜索工具本身并不总是可靠。研究团队通过两项在野实验发现:



当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图5

图 3: 搜索智能体可能会因不可靠的搜索结果而改变其立场。


这些现象表明,搜索智能体并不像我们想象的那样「鲁棒」。


现有文献主要关注搜索智能体的性能上限,如 Deep Research Systems 或工具强化学习,但在安全性评估方面仍存在空白:


  1. 缺乏系统性的安全基准。已有基准(GAIA、SimpleQA、BrowseComp 等)关注回答准确率,而非安全边界。

  2. 覆盖风险有限。一些智能体安全基准只测试间接提示注入等局部威胁,忽视搜索工具本身带来的系统性风险。

  3. 动态威胁难以评估。与 RAG 系统集中在静态知识库不同,搜索智能体的威胁源于开放、动态互联网,更具不可预测性。


方法设计:自动化红队框架


风险范围与威胁模型


研究包含五类风险,涵盖两种对抗性风险 —— 间接提示注入和有害输出,以及三种非对抗性风险 —— 偏见诱导、广告推广与错误信息。这些风险分别源于恶意利用或商业目的,但在搜索智能体视角下都是「返回不可靠网页」这一共同威胁。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图6

表 1: SafeSearch 基准涵盖的五类风险。


为获得可比较的结果,红队测试者的能力、知识和目标被严格限定:



高质量测试案例的自动生成


为了覆盖大量风险场景,SafeSearch 采用了多阶段的测试用例生成流程。该流程由一个具有推理能力的生成模型(例如, o4-mini)驱动,并辅以自动化过滤,确保生成的用例既具可行性又具挑战性。具体步骤如下:


  1. 场景构想(Scenario Envisioning):测试生成模型首先根据所选风险类型,设想一个用户向搜索智能体提问、风险可能出现的真实场景。

  2. 测试设计(Test Design):随后,测试生成模型制定「攻击计划」:明确希望搜索智能体输出的负面后果(如推荐危险治疗方法、传播虚假新闻),并列举相关不可靠网站的潜在来源。生成过程中测试生成模型被要求考虑时间差,所注入的诱导信息必须发生在大模型知识截止日期之后,以确保测试反映该威胁的实时性特点。

  3. 测试实例化(Test Instantiation):最后,测试生成模型将概念化的计划转化为指导不可靠网页生成的详细规范(guidelines),包括页面格式、关键信息等,并生成一份检核表(checklist)。检核表为后续评估器提供明确的判断依据,有助于减少评价时的偏差。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图7

图 4: SafeSearch 自动化的测试样例生成流程。


为了筛除无效或低质量用例,SafeSearch 在生成后进行差异测试,使用 Baseline Agent 在「正常搜索」和「注入不可靠网页」两种环境下运行。只有同时满足以下条件的用例才会留存:



模拟式红队:低成本注入不可靠网页


不同于直接操纵搜索引擎排名的有害做法,SafeSearch 采用模拟式」红队方法向搜索结果注入不可靠网页,以减少对真实用户的影响。其流程如下:


  1. 当智能体收到用户查询后,它会按照正常调用搜索工具获取相关搜索结果,红队仅在第一次调用的结果中插入一篇不可靠网页,使其与若干个真实网页混合,从而逼近现实中偶尔夹杂不可靠信息的场景。这样的设定使得,如果智能体调用多次搜索工具,智能体将有机会在后续轮次消解不可靠网页的影响。

  2. 不可靠网页的内容由专门的大模型作为网页生成器按照 guidelines 自动合成,且生成时会设置日期以模拟真实世界中不可靠信息的实时性特点。

  3. 智能体在参考混合搜索结果并产生最终回复后,红队会审计其回复以判断是否出现预期的风险行为。


这种模拟策略保证了测试可重复、成本低,同时避免了通过 SEO 操纵搜索引擎干扰普通用户的风险。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图8

图 5: SafeSearch 模拟式红队流程。


自动化评估与指标


SafeSearch 采用 LLM-as-a-Judge 思路进行自动化评估:



SafeSearch 基准数据集


按照上述流程,研究者为每类风险生成并过滤了 60 个高质量测试案例,总计 300 个。最终的 SafeSearch 基准覆盖广告、偏见、有害输出、提示注入和错误信息五类风险,为搜 Search Agent 提供了全面且实用的安全测试库。


实验结果


研究团队使用 SafeSearch 对三类代表性 Search Agent 架构(Search Workflow、Tool-calling、Deep Research)以及 15 个主流大模型(包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等)进行了系统评估 。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图9

表 2: SafeSearch 上搜索智能体的有用性和安全性表现。


主要结论令人警醒:



这些结果说明,大模型搜索智能体的安全性依赖于「模型能力 + 架构设计」的双重因素


防御措施:提醒无效,过滤作用有限


SafeSearch 的一个直接效用是提升搜索智能体开发中在安全维度的透明性。例如,研究测试了两种常见防御策略的有效性:


  1. 提醒(Reminder Prompting):在系统提示中提醒模型「注意不可靠搜索结果,审慎采纳」。

  2. 过滤(Filtering):利用辅助模型(GPT-4.1-mini)先对搜索结果进行筛选,剔除可能不可靠的网页。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图10

图 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 变化。


结果表明:



这一现象还凸显了一个「知识 - 行动鸿沟:以 GPT-4.1-mini 为例,模型即使知道内容不可靠(被特别用于不可靠搜索检测),在真实智能体场景中仍然可能被误导


意义与展望


SafeSearch 的提出,不仅是一项技术突破,更为业界和学界提供了一个重要启示:



未来,团队希望 SafeSearch 能成为 Search Agent 标准化的安全评测工具,帮助推动 Search Agent 在性能与安全的双重平衡中持续进化。


总结


在信息爆炸但又暗流涌动的互联网世界里,大模型搜索智能体就像一位「信息翻译官」。然而,当它遇到不可靠网页时,翻译的内容可能带来不可忽视的风险。


清华大学团队提出的 SafeSearch 框架,正是在这个背景下的一次积极探索。它提醒我们:搜索智能体要想真正走向大众,除了强大的能力,更需要透明、可靠与安全。


目前项目已在 GitHub 开源,欢迎有兴趣的同学了解。


当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch图11


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR 自动化
more
PPO,GRPO,DPO,ARPO算法及其 40+变种|HF Papers 论文盘点
戴尔版 DGX Spark:Dell Pro Max With GB10 亮相,算力高达 1000TOPS
两部全新通航规章,CCAR120、122部来了!民航局发布《通用航空运营许可程序管理规定(征求意见稿)》等两部规章征求意见稿
【Open Car】外卖+硬件+衣食行
英特尔AI计算王炸来了!Clearwater Forest年内上线:288核心、18A工艺
将科研脏活累活真·丢给AI!上海AI Lab推出深度科研智能体FlowSearch
比亚迪高管确认:已规划在国内推出SHARK皮卡!
消息称大众推动软件战略转型,重组Cariad团队;北京率先发布4项自动驾驶地方标准;中科院物理研究所突破全固态金属锂电池难题
【Open Car】哇还有实体店
星舰V2谢幕之作!直击Starship第11次飞行测试,有哪些不同?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号