“AI教父”辛顿, 姚期智等科学家:确保高级人工智能系统的对齐与人类控制,保障人类福祉

机器人技术与应用 2025-07-31 20:24

2025年7月22日至25日,在上海期智研究院,AI安全国际论坛 (Safe AI Forum), 以及上海人工智能实验室主办的第四届AI安全国际对话 (International Dialogues on AI Safety) 中,全球顶尖的人工智能 (AI) 科学家齐聚上海,就未来人工智能系统可能超越人类智能水平带来的失控风险进行了深入的交流与研讨

本次会议促成了《AI安全国际对话上海共识》(以下简称“上海共识”)首次呼吁全球各国政府及研究人员确保高级人工智能系统的对齐与人类控制,保障人类福祉共识指出,人工智能正迅速逼近并可能超越人类智能水平。然而,依据现有的系统欺瞒人类开发者的证据推测,具有超过人类智慧的人工智能系统可能在未来脱离人类控制或被不法分子利用,带来灾难性风险。因此,全球研究者必须联合起来,确保人工智能系统受人类掌控且符合人类价值观

国内外人工智能安全与治理领域领军人物,包括图灵奖得主姚期智教授诺贝尔奖和图灵奖得主杰弗里·辛顿 (Geoffrey Hinton)教授图灵奖得主约书亚·本吉奥 (Yoshua Bengio) 教授(远程)加州大学伯克利分校计算机科学教授斯图尔特·罗素 (Stuart Russell) 出席本次会议,并签署了上海共识。

资讯配图

与会代表合影,杰弗里·辛顿 (Geoffrey Hinton) 教授站于后排。前排从左至右分别为:薛澜教授,傅莹女士,周伯文教授,姚期智教授,吉莉安·哈德菲尔德 (Gillian Hadfield)教授,克瑞格·蒙迪 (Craig Mundie)先生, 斯图尔特·罗素 (Stuart Russell) 教授, 罗伯特·特拉格 (Robert Trager) 教授。

上海共识内容|Shanghai Consensus

A 人工智能的欺骗与风险

上海共识基于近期人工智能迅速提升的智能以及显现的欺瞒倾向对这一技术在短期内带来的风险表达了深切的担忧。

随着人工智能系统日益强大、更具自主性,这些系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动。近期实验证据显示,人工智能系统日益显现出欺骗性和自我保护倾向例如在模拟情境中,当系统即将被新版本替换时试图胁迫开发者。随着智能水平的不断攀升,人工智能系统一旦失控,便可能给人类带来灾难性乃至生存性风险当前的许多人工智能具有空前的能力和薄弱的安全防御,不法分子亦可以用其开发生化武器或制造虚假信息、操控人心。当前尚无已知方法,能够在更高级的通用人工智能超越人类智能水平后,仍可靠地确保其对齐,并保持人类的有效控制。

人工智能的安全问题已经获得了一定的重视。各个主要国家和地区都在积极完善对于人工智能的监管,希望主动掌握该技术的发展走向。中国自2023年开始就要求所有生成式人工智能进行统一备案,且在今年年初成立了中国人工智能发展与安全研究网络。欧盟通过了《人工智能法案》,英国发起了人工智能峰会系列,美国也设立了人工智能标准与创新中心。

然而,监管体系、人工智能安全研究投入以及风险缓解方法仍大幅落后于技术本身的迭代。与人工智能开发获得的支持和关注相比,人工智能安全研究的投入仍相较甚远

B 在竞争中寻求人工智能安全合作

因此,共识认为,全球主要国家和地区必须对接协调,采取可信的安全举措在能共同推进的领域协同发力,在必要时自主行动。

我们需要在国际层面逐步建立互信机制,并加大对人工智能安全科学研究的投入为了保障在不久的将来所有人类都能更好的生存,上海共识呼吁国际社会

要求前沿人工智能开发者提供安全保障

为了让监管部门更清楚地了解未来高级AI系统的安全性,开发者在模型部署前应先进行全面的内部检查和第三方评估,提交高可信的安全案例,以及开展深入的模拟攻防与红队测试

若模型达到了关键能力阈值(比如检测模型是否有具备帮助没有专业知识的非法分子制造生化武器的能力)开发者应向政府(在适当时亦可向公众)说明潜在风险

部署后,开发者要持续监测模型运行情况,及时发现并报告新风险、事故或滥用行为,并准备好应急方案,必要时可立即关闭系统

通过加强国际协调, 共同确立并恪守可验证的全球性行为红线

国际社会需要合作划出人工智能开发不可以逾越的红线(即“高压线”),这些红线应聚焦于人工智能系统的行为表现,其划定需同时考量系统执行特定行为的能力及其采取该行为的倾向性。

为落实这些红线,各国应建立一个具备技术能力、具有国际包容性的协调机构汇聚各国人工智能安全主管机构,以共享风险相关信息,并推动评估规程与验证方法的标准化。该机构将促进知识交流,并就遵守红线所需的技术措施达成一致,包括统一披露要求与评估规程,从而帮助开发者可信地证明其人工智能系统的安全与安保水平。

投资基于设计的安全人工智能研究

科学界和开发者应投入一系列严格机制来保障人工智能系统的安全性。

短期内,我们需通过可扩展的监督机制应对人工智能欺骗行为例如加强信息安全投入,防范来自系统内部和外部的各种威胁,增强模型抗越狱能力等。

长期来看,我们可能需要化被动为主动,转而构建基于“设计即安全”的人工智能系统通过实验数据总结出的规律,研究者可以提前预估未来人工智能系统的安全水平和性能。这样,开发者在正式训练模型之前,就预先设置好足够的安全防护措施。

资讯配图

杰弗里·辛顿教授与姚期智教授参与圆桌讨论。

资讯配图

姚期智教授在会议上发言。

资讯配图

傅莹女士,吉莉安·哈德菲尔德教授,罗伯特·特拉格教授,薛澜教授 (从左到右) 参加关于人工智能治理的座谈小组讨论。

共识签署人|signatories

资讯配图
资讯配图
资讯配图
资讯配图
资讯配图
资讯配图
资讯配图
资讯配图

傅莹女士,克瑞格·蒙迪先生,杰弗里·辛顿教授,姚期智教授,周伯文教授,斯图尔特·罗素教授,薛澜教授 (从左到右) 进行圆桌讨论。

主办方

上海期智研究院是上海市科学技术委员会于2020年创建的新型研发机构,由图灵奖得主姚期智先生担任院长。研究院以突破人工智能基础研究、引领世界人工智能发展为使命,聚焦人工智能、信息安全、量子智能等核心方向,目标是在人工智能及相关尖端领域孕育和催生一批具有重要影响力的科学理论和关键技术,建成国际一流的人工智能前沿研究机构。
资讯配图

图灵奖得主,上海期智研究院院长姚期智教授在会上作主题演讲。

AI安全国际论坛是一家非盈利组织,致力于推动全球人工智能治理合作,促进中西AI专家的第二轨道对话,共同应对AI带来的极端风险,造福全人类。我们主办AI安全国际对话,并提供研究和咨询服务。

资讯配图
AI安全国际论坛执行董事Fynn Heide在会议上介绍AI安全国际对话的历史和影响力。
文章来源:上海期智研究院

如需咨询商务合作、宣传推广、转载开白等事宜,请联系:18355423366 (微信同号)对接。


END



资讯配图

75家机器人上市公司2024年报亮点
机器人行业上市公司2024年报出炉!谁领风骚看榜单
孙立宁院士: 微纳感知赋能具身智能机器人创新发展
浙江大学熊蓉教授: 人形机器人具身智能发展挑战与进展
打响机器人概念股退市第一枪的为什么是它?
《机器人技术与应用》2025年第1期(总第223期)
董凯处长:机器人具身智能发展趋势研判
北京工业大学石照耀教授:《灵动之枢:具身智能机器人关节技术的突破与应用》
仿生机器人技术新突破:向松鼠学习跨越复杂地形的智慧
从“破格上市”到市值翻三倍,越疆科技领跑港股机器人赛道
人形机器人量产爆发:价格战火爆来袭,科技革命下的产业重构与社会想象
看点:机器人概念上市公司2024上半年业绩普遍承压,机器人与AI打通迎机遇
55家机器人上市公司2023年报看点:喜忧参半,洗牌加剧
一文说透中国人形机器人研发团队
人形机器人炙热之下,突进与阻力的较量
谁是最靓的仔?53家机器人上市公司2023中报看点
53家机器人上市企业财报半年报下载(附PDF)
对话清华大学赵明国:加速进化复现波士顿动力动作,我们需要的是信心和创新!
2023年国家科技奖初评结果公布!9所985光头!西交华科前三!(附全名单)
史无前例!美国工程师与ChatGPT4合作设计人工智能芯片
俄罗斯总统普京批准新版《2030年人工智能发展国家战略》
人口不足20万!丹麦小镇欧登塞如何成为全球机器人中心?
“商业化元年”开启,人形机器人再添实力新玩家
瑞士研究人员开发出新型人造肌肉,更轻巧、更安全、更坚固!
欧盟终止亚马逊并购iRobot,昔日扫地机器人巨头何去何从
肌肉组织驱动的双足机器人问世,生物混合机器人突破性进展!
专业人士浅谈机器人即服务模式——自动化的未来
院士报告|潘云鹤:人工智能的行为智能和产品智能
院士谈推动机器人协同智能制造的新动能
院士谈机器人创新设计的六大关键技术
西木科技拓宽人形机器人研究新角度
院士谈未来人工智能发展的双驱动模型
院士谈机构智能让“变形金刚”从屏幕走进现实                                           

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 人工智能
more
【教育】教育部召开年中推进会:稳妥推进人工智能赋能教育变革
智元机器人亮相2025世界人工智能大会开幕舞台,演绎科技与文化融合
2025世界人工智能大会“人工智能的全球发展与治理:共赢与共治之路”论坛在上海成功举办
2025年中国人工智能行业市场前景预测研究报告
英伟达(Nvidia )探索部署 SOCAMM,助力下一代人工智能系统
全球首秀!“成都造”全尺寸通用人形机器人亮相世界人工智能大会
WAIC Young | 用AI玩转非遗,联合上海市科技艺术教育中心打造不一样的世界人工智能大会
2000一张票的世界人工智能大会,最好看的竟然是机器人?
思辨会 | 思辨八方,智启未来——2025世界人工智能大会思辨会综述
“加大了无人机、人工智能等新兴领域培训力度” 退役军人事务部:将聚焦低空经济等重点领域,增强人力资源开发的前瞻性有效性针对性
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号