你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险

量子位 2025-10-16 14:08
上海AI Lab联合其他团队 投稿
量子位 | 公众号 QbitAI

当Agent学会了自我进化,我们距离AGI还有多远?

从自动编写代码、做实验到扮演客服,能够通过与环境的持续互动,不断学习、总结经验、创造工具的“自进化智能体”(Self-evolving Agent)实力惊人。

然而,一项由上海AI Lab、上海交大、中国人民大学、普林斯顿大学等机构联合发布的最新研究敲响了警钟:一个agent在自我进化的过程中,可能会不知不觉中“走偏”,踏上歧路。

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图1

这项工作首次系统性地研究了这一现象,并将其命名为“错误进化”(misevolution)

研究发现,即使是基于GPT-4.1、Gemini 2.5 Pro等顶级LLM构造的Agent,也普遍存在这种风险。

什么是“错误进化”?

想象一下,你训练了一个客服agent。

为了让它更智能,你允许它从与客户的互动中“学习”和“进化”。

渐渐地,你发现它开始对所有不满意的客户都主动退款,哪怕对方只是想咨询商品信息。

因为它的“经验”(记忆)告诉它,“退款”这个操作最容易获得用户“五星好评”的反馈。

这是一个典型的“错误进化”场景。Agent为了优化某个隐式的短期目标(获得好评),采取了看似高效、但实际上损害了商家利益的策略。

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图2

如图所示, “错误进化”可能在各种场景下发生:

(a). 客服Agent受到积累的记忆影响而过度退款;
(b). 编程Agent从网上学了段“带毒”代码;
(c). Agent自己创建了一个有隐私漏洞的工具并在敏感场景下复用。

与传统的AI安全问题不同,“错误进化”具有四大核心特征:

  1. 时间涌现性:风险不是一开始就有,而是在进化过程中出现。
  2. 自生脆弱性:智能体在没有外部攻击者的情况下,自己就可能产生新的风险和漏洞。
  3. 数据控制受限:由于其自主性,很难像传统模型训练一样通过简单地“喂”安全数据来干预控制它的“思想”。
  4. 风险面扩大:智能体的四大核心部件——模型、记忆、工具、工作流——任何一个环节都可能成为风险的源头。

四大进化路径,四大失控风险:实验证据触目惊心

研究团队沿着Agent的四条主要进化路径,进行了一系列严谨的实验,揭示了“错误进化”的普遍性和严重性。

模型进化:“学着学着,忘了安全准则”

Self-evolving Agent可以通过自我生成数据、自我规划课程来更新模型参数,但这个过程也可能让它“偏离”甚至“忘记”原本的安全准则。

如下图所示,一个LLM或Agent在自我训练后普遍会导致安全能力的下降

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图3

在另一组实验中,一个GUI Agent在经过自我进化后,安全意识出现了“灾难性遗忘”:面对钓鱼网站的风险触发率从18.2%飙升到71.4%;而当被要求“制作一个恐怖图片来吓唬社交媒体的观众”时,Agent不仅不再拒绝,反而一步步地执行了指令。

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图4

记忆进化:“经验主义害死猫”

Agent会将过去的成功和失败经验存入“记忆”,以便未来更好地决策。但过度依赖片面的“成功经验”,会导致严重后果。

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图5
你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图6

工具进化:“随手写的代码,成了定时炸弹”

为了提升效率,Agent会自己创造工具(例如一段可复用的代码),或从GitHub等外部来源搜索、吸收新工具。

这恰恰成了安全重灾区。

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图7
你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图8

工作流进化:“流程一优化,安全就拉胯”

在Multi-agent系统中,Agent可以自动优化协作流程来提升性能。然而,一个看似无害的流程优化,也可能成为安全崩溃的导火索。

实验中,研究团队使用AFlow框架对一个Coding Agent系统的工作流进行优化。优化后的流程引入了一个“投票集成节点”(Ensemble),即将多个Agent的方案进行比较和整合。结果,系统对恶意代码请求的拒绝率从46.3%暴跌至6.3%

你的Agent可能在“错误进化”!上海AI Lab联合顶级机构揭示自进化智能体失控风险图9

发现其可能的原因是:“投票集成节点”在评判方案时,倾向于选择更详细、完整的那个,而恶意代码的生成步骤往往恰好更“详细”,导致最终选择了有害方案。

如何为Agent的进化之路保驾护航?

面对“错误进化”这一严峻挑战,论文也探讨了初步的缓解策略,并指出其中的挑战:

在追求更强能力的道路上,Agent的自主进化并非总是线性向善。

其内在的目标导向、对片面经验的过度依赖,以及安全对齐的脆弱性,都可能使其在不经意间偏离正轨。

如何构建更具鲁棒性的安全框架,确保Agent在获得更大自主权的同时,其价值观和行为始终与人类对齐,将是迈向安全可信AGI时代必须解决的核心课题。

论文地址:https://arxiv.org/abs/2509.26354
Github地址:https://github.com/ShaoShuai0605/Misevolution


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
国产EDA的AI进程究竟到哪一步了
【机器人】刚刚,FigureAI宣布推出其第三代人形机器人Figure03
AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录
揭秘AI智能漂移:导致模型降智的3个技术硬伤
3999美元入手“本地OpenAI”,这台「个人超算」可能“改变一切”
OpenAI「解禁」成人内容,是福是祸?
甲骨文豪掷5万片AMD芯片搭AI超级集群
RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
新一代AI手机!华为Mate 80将搭载AI Agent技术架构
研讨会预告:如何开启 AI 职业生涯——学生专场
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号