“AI教父”辛顿, 姚期智等科学家：确保高级人工智能系统的对齐与人类控制，保障人类福祉

2025年7月22日至25日，在上海期智研究院，AI安全国际论坛 (Safe AI Forum), 以及上海人工智能实验室主办的第四届AI安全国际对话 (International Dialogues on AI Safety) 中，全球顶尖的人工智能 (AI) 科学家齐聚上海，就未来人工智能系统可能超越人类智能水平带来的失控风险，进行了深入的交流与研讨。

本次会议促成了《AI安全国际对话上海共识》(以下简称“上海共识”), 首次呼吁全球各国政府及研究人员“确保高级人工智能系统的对齐与人类控制，保障人类福祉”。共识指出，人工智能正迅速逼近并可能超越人类智能水平。然而，依据现有的系统欺瞒人类开发者的证据推测，具有超过人类智慧的人工智能系统可能在未来脱离人类控制或被不法分子利用，带来灾难性风险。因此，全球研究者必须联合起来，确保人工智能系统受人类掌控且符合人类价值观。

国内外人工智能安全与治理领域领军人物，包括图灵奖得主姚期智教授，诺贝尔奖和图灵奖得主杰弗里·辛顿 (Geoffrey Hinton)教授，图灵奖得主约书亚·本吉奥 (Yoshua Bengio) 教授（远程），加州大学伯克利分校计算机科学教授斯图尔特·罗素 (Stuart Russell) 等出席本次会议，并签署了上海共识。

与会代表合影，杰弗里·辛顿 (Geoffrey Hinton) 教授站于后排。前排从左至右分别为：薛澜教授，傅莹女士，周伯文教授，姚期智教授，吉莉安·哈德菲尔德 (Gillian Hadfield)教授，克瑞格·蒙迪 (Craig Mundie)先生, 斯图尔特·罗素 (Stuart Russell) 教授, 罗伯特·特拉格 (Robert Trager) 教授。

上海共识内容｜Shanghai Consensus

A 人工智能的欺骗与风险

上海共识基于近期人工智能迅速提升的智能以及显现的欺瞒倾向，对这一技术在短期内带来的风险表达了深切的担忧。

随着人工智能系统日益强大、更具自主性，这些系统可能在操作者毫不知情的情况下，执行并非操作者所期望或预测的行动。近期实验证据显示，人工智能系统日益显现出欺骗性和自我保护倾向，例如在模拟情境中，当系统即将被新版本替换时试图胁迫开发者。随着智能水平的不断攀升，人工智能系统一旦失控，便可能给人类带来灾难性乃至生存性风险。当前的许多人工智能具有空前的能力和薄弱的安全防御，不法分子亦可以用其开发生化武器或制造虚假信息、操控人心。当前尚无已知方法，能够在更高级的通用人工智能超越人类智能水平后，仍可靠地确保其对齐，并保持人类的有效控制。

人工智能的安全问题已经获得了一定的重视。各个主要国家和地区都在积极完善对于人工智能的监管，希望主动掌握该技术的发展走向。中国自2023年开始就要求所有生成式人工智能进行统一备案，且在今年年初成立了中国人工智能发展与安全研究网络。欧盟通过了《人工智能法案》，英国发起了人工智能峰会系列，美国也设立了人工智能标准与创新中心。

然而，监管体系、人工智能安全研究投入以及风险缓解方法仍大幅落后于技术本身的迭代。与人工智能开发获得的支持和关注相比，人工智能安全研究的投入仍相较甚远。

B 在竞争中寻求人工智能安全合作

因此，共识认为，全球主要国家和地区必须对接协调，采取可信的安全举措，在能共同推进的领域协同发力，在必要时自主行动。

我们需要在国际层面逐步建立互信机制，并加大对人工智能安全科学研究的投入。为了保障在不久的将来所有人类都能更好的生存，上海共识呼吁国际社会：

要求前沿人工智能开发者提供安全保障

为了让监管部门更清楚地了解未来高级AI系统的安全性，开发者在模型部署前应先进行全面的内部检查和第三方评估，提交高可信的安全案例，以及开展深入的模拟攻防与红队测试。

若模型达到了关键能力阈值（比如检测模型是否有具备帮助没有专业知识的非法分子制造生化武器的能力），开发者应向政府（在适当时亦可向公众）说明潜在风险。

部署后，开发者要持续监测模型运行情况，及时发现并报告新风险、事故或滥用行为，并准备好应急方案，必要时可立即关闭系统。

通过加强国际协调, 共同确立并恪守可验证的全球性行为红线

国际社会需要合作划出人工智能开发不可以逾越的红线（即“高压线”），这些红线应聚焦于人工智能系统的行为表现，其划定需同时考量系统执行特定行为的能力及其采取该行为的倾向性。

为落实这些红线，各国应建立一个具备技术能力、具有国际包容性的协调机构，汇聚各国人工智能安全主管机构，以共享风险相关信息，并推动评估规程与验证方法的标准化。该机构将促进知识交流，并就遵守红线所需的技术措施达成一致，包括统一披露要求与评估规程，从而帮助开发者可信地证明其人工智能系统的安全与安保水平。

投资基于设计的安全人工智能研究

科学界和开发者应投入一系列严格机制来保障人工智能系统的安全性。

短期内，我们需通过可扩展的监督机制应对人工智能欺骗行为：例如加强信息安全投入，防范来自系统内部和外部的各种威胁，增强模型抗越狱能力等。

长期来看，我们可能需要化被动为主动，转而构建基于“设计即安全”的人工智能系统。通过实验数据总结出的规律，研究者可以提前预估未来人工智能系统的安全水平和性能。这样，开发者在正式训练模型之前，就能预先设置好足够的安全防护措施。

杰弗里·辛顿教授与姚期智教授参与圆桌讨论。

姚期智教授在会议上发言。

傅莹女士，吉莉安·哈德菲尔德教授，罗伯特·特拉格教授，薛澜教授 (从左到右) 参加关于人工智能治理的座谈小组讨论。

共识签署人｜signatories

傅莹女士，克瑞格·蒙迪先生，杰弗里·辛顿教授，姚期智教授，周伯文教授，斯图尔特·罗素教授，薛澜教授 (从左到右) 进行圆桌讨论。

主办方

上海期智研究院是上海市科学技术委员会于2020年创建的新型研发机构，由图灵奖得主姚期智先生担任院长。研究院以突破人工智能基础研究、引领世界人工智能发展为使命，聚焦人工智能、信息安全、量子智能等核心方向，目标是在人工智能及相关尖端领域孕育和催生一批具有重要影响力的科学理论和关键技术，建成国际一流的人工智能前沿研究机构。