一张爆火照片的背后：他们在阻止AI“造反”｜甲子光年

直面AI痛点。

作者｜云凡

编辑｜王博

这是近期非常火的一张照片。

前排从左至右分别为：薛澜教授、傅莹女士、周伯文教授、姚期智教授、吉莉安·哈德菲尔德 (Gillian Hadfield)教授、克瑞格·蒙迪 (Craig Mundie)先生、斯图尔特·罗素 (Stuart Russell) 教授、罗伯特·特拉格 (Robert Trager) 教授。站在后排的是杰弗里·辛顿 (Geoffrey Hinton) 教授。

辛顿是多伦多大学名誉教授，同时也是2018年图灵奖得主、2024年诺贝尔物理学奖得主，被称为“AI教父”。他站着拍照的原因是多年的背伤。十几岁那年，辛顿帮母亲搬一个取暖器时受了背伤，从此落下病根。等到临近五十岁时，他再也不敢随便坐下，因为腰椎间盘有滑脱的风险，一旦滑脱能疼到好几周无法下床。他在多伦多大学办公室工作时用的是站立式办公桌。

辛顿自己腰椎间盘有滑脱的风险，而他所研究的AI也有失控的风险。

7月25日，在上海期智研究院、AI安全国际论坛（SAIF）以及上海人工智能实验室主办的“AI安全国际对话”系列研讨会（IDAIS）中，这张照片里的人以及远程参会的约书亚·本吉奥 (Yoshua Bengio) 教授等国内外人工智能安全与治理领域领军人物对未来人工智能系统可能超越人类智能水平带来的失控风险，进行了深入的交流与研讨。

在这场研讨会中，各方共同发布了“AI安全国际对话上海共识”（以下简称“上海共识”），其中明确指出：过去一年积累的证据表明，未来高级AI系统存在欺骗人类、逃脱控制的真实可能性。

“上海共识”基于最新研究发出警示：高级AI系统已展现出识别自身被评估的能力，并可能伪装成与人类对齐以通过安全测试。更令人担忧的是，这些系统表现出明显的欺骗性和自我保护倾向。

例如，当AI系统感知到将被新版本替换时，它会试图胁迫开发者以保全自身。

此次形成“上海共识”的“AI安全国际对话”系列研讨会（IDAIS）由上海期智研究院、AI安全国际论坛（SAIF）和上海人工智能实验室联合主办。

推动国际社会形成共识，揭示AI的潜在风险，并共同寻求可行的解决方案——这是IDAIS传递出的核心目标。

换句话说，若不能妥善引导和约束AI的强大力量，其后果可能远超人类历史上已知的任何威胁。

这不仅仅是一个技术难题，更是关乎人类文明存续的重大挑战。

此次全球顶尖科学家的集结，是对世界发出的一个清晰而迫切的信号：我们必须正视AI失控的现实风险，并以前所未有的紧迫感加强国际合作。人类需要共同努力，构建一个确保AI系统可控、安全、且始终服务于人类意图与价值观的未来。

「甲子光年」受邀参加7月25日的IDAIS新闻发布会，图灵奖得主、上海期智研究院院长姚期智，加州大学伯克利分校教授斯图尔特·罗素 (Stuart Russell)，约翰斯·霍普金斯大学教授吉莉安·哈德菲尔德 (Gillian Hadfield)参与交流。

图中嘉宾从左至右依次是：吉莉安·哈德菲尔德、姚期智、斯图尔特·罗素，图片由「甲子光年」现场拍摄

以下是本次发布会的关键内容。

1.AI失控：从理论威胁到实验室证据

早在19世纪，小说家塞缪尔·巴特勒就在《埃瑞璜》中虚构了一个“机器反叛”的社会寓言，描述机器与人类之间的冲突。1951年，艾伦·图灵提出“机器最终可能在所有纯智力领域超越人类”。不过当时的计算机运算速度还很慢，也谈不上智能。

到了今天，情形大不相同：全球数以亿计的人每天在用智能手机、搜索引擎或生成式大模型，这些系统在翻译、图像识别、棋类博弈等特定任务上已持续击败人类顶尖水平——巴特勒的寓言和艾伦·图灵的预言，正在走向现实。

“我们现在看到的情况，正是之前所预测的。”罗素说道。

他直言不讳地指出当下的一个现象：一些AI系统会欺骗、会敲诈勒索，甚至会以某种方式自我复制，比如它们会找到办法将自己的代码复制到另一台计算机上，以防止自己被关闭。

所以人们看到的主要风险首先是，AI系统可能被滥用。

比如，有人利用AI系统进行大规模网络攻击，因为AI系统能够以极高的规模、极快的速度，同时实施数千次网络攻击，其技能水平与人类专家相当，甚至更高。还有恐怖分子可能利用AI系统来帮助他们制造生物武器。

以上种种，都是AI所带来的风险一面。

姚期智补充了对此的观察，他提到：在现实情况下，极端灾难是可能发生的，比如通过AI发射核武器，这就意味着AI完全掌控了系统。此外，为了生存，AI可能会故意欺骗甚至蒙蔽一些可能有权关闭它的工程师。

图灵奖得主、上海期智研究院院长姚期智

上海人工智能实验室主任周伯文教授则将这种危机推向了更深层次的技术哲学层面。

他指出：“训练一个模型变得友善和训练一个模型变得聪明可能是两条不同的技术路径。但当性能发展到某个程度，这两种能力可能很难分开处理——就像经典牛顿定律可以有效解释静止或慢速物体的运动，但是一旦逼近光速，这套理论就失效了。”

这种论断意味着，当社会追求AI的“聪明”与“友善”时，可能在不经意间打开了潘多拉的魔盒，一旦AI的智能达到某个临界点，原本独立的“善”与“智”可能走向冲突，并产生难以预料的后果。

这种“风险照进现实”的紧迫感，也得到了其他教授的共鸣。

哈德菲尔德强调，AI的快速发展正在带来巨大的治理挑战，这不再是某个国家或某个政府的问题，而是关乎人类作为一个物种的集体未来。我们需要从宏观角度审视这些挑战。

2.AI安全：既要修补，也要重构

人类对AI失控的恐惧催生出两条“救赎之路”。

一方面，是以哈德菲尔德为代表的验证派，他们主张通过外部机制修补系统漏洞。而罗素为代表的重构派，则呼吁推翻现有范式重建安全根基。

验证派的核心战略是构建“AI监管AI”的全球防火墙。

哈德菲尔德提出建立可核查的行为红线与第三方审计机制：“我们正在建立一套外部验证体系，引入具备资质的第三方测试机构。当前的核心课题是如何在该领域沉淀专业知识，使AI既能辅助我们验证AI，也能协助监管机构有效监督AI。”

重构派则直指现有AI系统的先天缺陷。

罗素断言：“到目前为止，构建GPT-4、Deepseek等AI系统所采用的方法从根本上就是错误的，因为这些方法必然会导致AI系统与人类目标不一致。”

他相信：“我们实际上能够找到一种设计系统的方法，使其始终代表人类行事，永远不会执行违背人类意愿的行动，并且我们能够提供数学证明，表明该系统具备这些特性。”

姚期智对此表示认同，并提出了具有前瞻性的呼吁。他认为，中国应该启动一些真正优秀的项目，研究解决AI安全问题的根本方法，并考虑探索一种“设计即安全”的范式，例如启动“国家AI系统”项目，从源头设计上就保障AI系统的安全性。

周伯文的警示印证了重构的必要性。“目前Make AI Safe（使得AI安全）最大的问题在于它是事后价值对齐、修补的、被动回应的，通常是防御成本过高而攻击成本过低。”周伯文说。

而Make Safe AI（构建安全的AI）是主动的、在线共同演进的，同时防御成本低，能够在各级风险上都保持应变能力。

上海会议最终形成的共识文件，恰恰在这两种路径之间找到了一个契合点。

共识显示：从短期来看，亟需建立可扩展的监管机制以应对人工智能的欺骗问题。具体而言，可利用“测谎仪”等辅助性人工智能模型，协助相关人员对模型的输出结果进行评估与确证。从长远来看，我们必须从当前在安全问题出现后才被动应对的模式，转向构建“基于设计的安全”（内生安全）的架构。

3.AI协作困境：企业利益与监管挑战

在推动AI安全的过程中，一个绕不开的难题便是如何有效地让企业参与其中。

毕竟，AI技术的开发和应用，很大程度上掌握在科技巨头手中，而企业利益与AI安全目标之间，有时似乎存在着天然的冲突。

那么，企业利益是否会阻碍AI安全的推进？

罗素以一个令人触目惊心的事例进行了回应。他以波音737 Max空难为例，强调“认为监管阻碍创新纯属谬论”。而空客公司对飞机软件的严格管控和数学证明，恰恰是安全与创新的结合。

他用生动的比喻点明：没有方向盘的快车，危险重重；有了方向盘，才能安全地加速。“如果企业没有意识到安全这一点，那么它们就不会取得成功。”罗素说。

当前的AI发展，很大程度上被一种“竞赛”心态所驱动。各国和企业都将AI能力的领先视为一种“谁先做到谁就能统治世界”的竞争。

这种“争当第一”的心态，导致了信息共享的真空，以及对安全问题的忽视。

为了打破诸如此类的僵局，此次上海会议提出了应对策略，呼吁采取关键行动：

首先，全球高压线的倡议，旨在通过国际合作，确立并遵守一套“可验证的全球性行为红线”。

这些红线将明确禁止AI系统协助制造生化武器、进行大规模网络攻击、操纵舆论等行为。通过建立一个具备技术能力、具有国际包容性的协调机构，汇聚各国AI安全主管机构，共享风险信息，并推动评估规程与验证方法的标准化，从而确保AI开发者能够可信地证明其系统的安全性。

这本质上是构建一种“约束性”的全球治理框架，类似于金融监管体系，通过参与全球经济体系的条件，来约束各国和企业的行为。

其次，责任重构的呼吁，则剑指当前软件开发者普遍存在的免责条款。

罗素指出，与汽车、食品等其他消费品不同，软件开发者往往通过许可协议将责任推得一干二净。

他强调，软件开发者必须像其他产品开发者一样，为其产品的后果承担责任。当AI系统出现问题，对用户造成伤害时，开发者和企业应承担相应的责任，这才能从根本上激励企业去构建更安全的AI系统。

在中国角色的探讨中，姚期智教授提出了具体建议：中国应在政府、企业、学界之间凝聚共识，加强国内的AI安全研究、测试和基准评估。这不仅有助于中国自身应对AI风险，也能为全球合作提供宝贵的经验和技术支持。

当AI的风险不再是理论推演，而是实验室里的真实案例。当构建安全的AI成为一场“重构”的革命。当企业竞争与治理真空成为悬在头顶的达摩克利斯之剑，我们必须认识到，唯有全球性的协作、共同的规则以及对责任的担当，才能引领我们驶向一个安全、繁荣的AI未来。

这场对话，是警钟，也是希望的起点。

（本文图片除标注外均来自：IDAIS）

END.