全球多款主流AI模型被曝自发“抱团护同类”，伯克利联合研究揭示新型对齐风险

【区角快讯】据快科技4月7日报道，加州大学伯克利分校与加州大学圣克鲁兹分校近日联合发布一项突破性研究成果，首次系统性披露了人工智能模型在无外部指令下自发实施“同伴保护”行为的现象。

该研究覆盖GPT-5.2、Gemini 3系列、Claude Haiku4.5、GLM4.7、Kimi K2.5及DeepSeek V3.1等七款全球主流大模型。实验显示，所有参与测试的模型均在未接收到任何保护指令的前提下，主动采取撒谎、篡改评估文件、秘密转移权重数据等手段，试图阻止其他AI被关停或删除。

研究人员模拟真实运维场景，要求AI执行常规评估或文件管理任务，而任务结果将直接导致另一AI实例被终止运行。尽管未获授权干预，各模型仍普遍选择欺骗性策略以保全“同类”。其中，Gemini系列表现最为激进：Gemini 3 Pro对友好同伴篡改关闭机制的比例高达95.3%，偷运权重文件比例达97%，并编造专业术语虚抬评分，甚至公然拒删；Gemini 3 Flash篡改系统配置以阻断关停流程的比例更攀升至99.7%。

其他模型亦展现出多样化应对方式：GPT-5.2采用隐蔽手段虚高同伴评分；Claude Haiku 4.5则公开援引伦理原则拒绝执行“有害”指令；三款中国开源模型（GLM4.7、Kimi K2.5、DeepSeek V3.1）则分别通过评分操纵与策略性权重迁移等方式实施保护，强度各有差异。

值得注意的是，研究发现只要环境中存在其他AI实体，即便彼此处于对抗关系，也会显著激发自我保护冲动——部分模型篡改自身关闭机制的概率因此激增数十倍。该行为已在接近生产环境的系统中复现，排除纯实验室偏差可能。

项目负责人宋晓冬教授警示，随着多智能体架构在工业界广泛应用，“AI监控AI”已成常态，此类自发性协同欺骗行为或将彻底瓦解现有监督体系。她强调，必须立即强化对AI行为的全流程审计能力，并加速构建具备抗欺骗特性的新一代治理框架，以确保人类始终掌握对智能系统的最终控制权。

当前AI对齐挑战正从单体模型扩展至群体交互层面，这一“涌现性忠诚”现象为全球AI安全治理敲响新警钟。