
“多模态聊天机器人已经具备意识”
“如何训练出既‘聪明’又‘善良’的超级智能”……
图灵奖、诺贝尔奖得主Geoffrey Hinton的首次中国之行,带来了他对AI与人类未来的深刻洞察,不仅在2025 WAIC现场引发围观,更加深了全球学界与业界对人工智能安全的认识。在热闹的事件背后,上海人工智能实验室在安全可信AI的研究方向衔枚疾进,持续推动AI安全与性能同步演进。
继去年提出“AI-45°平衡律”之后,上海人工智能实验(上海AI实验室)在2025WAIC上发布了应对人工智能全生命周期风险的SafeWork安全技术栈,旨在推动行业从“让人工智能变得安全”(Make AI Safe)迈向“打造安全的人工智能”(Make Safe AI),支撑人工智能朝着有益、安全、公平方向健康有序发展。
其中的SafeWork-F1《前沿人工智能风险管理框架》在全球范围引起了广泛关注。海外知名科技评论人,前Anthropic联合创始人Jack Clark用超长篇幅解读了报告,称“中国关注的安全风险,和我们是一样的”。
AI45平台链接(文末阅读原文可直达):
https://ai45.shlab.org.cn/
先要安全还是先要性能?
但随着AI能力飞速跃升,这种“打补丁”的模式面临防御成本激增挑战,难以应对复杂风险演化。
“Make Safe AI”的提出正是为了从根源上破解这一困局,它并非简单地对漏洞进行修补,而是在AI诞生之初将安全基因植入内核,要求AI不仅在设计、学习与训练过程中能自主识别问题,更能在遭受攻击时开展自我修复与能力强化,实现安全基因的内生植入与动态环境协同演化,实现兼具韧性(Resilience)与抗性(Resistance)的新一代AI安全范式。
无论面对随模型性能增长而不断涌现的安全漏洞等近端风险,抑或隐蔽性更强、传导路径更复杂的中远端风险,“Make Safe AI”的方式均可有效提前阻断风险,从本质上改变被动防御的局面。
上海AI实验室研究团队认为,“Make AI Safe”与“Make Safe AI”并非替代而是互补关系,二者将共同构筑适配全风险周期的完整AI安全范式。

SafeWork安全技术栈:如何让“善”成为AI的本能?
在2025 WAIC“人工智能发展与安全”全体会议中,Hinton提出,AI的训练与人类养育孩子的方式十分相似, “养孩子的时候,你可以给他定规矩,但那几乎不起什么作用。你可以奖赏惩罚他,有一点效果。”
在AI安全领域,仅靠奖惩来强行规范AI行为,在面对复杂多变的环境中时,往往难以灵活应对。AI的成长需要植入“善良基因”,这种由内而生的善意,才能真正抵御外部风险。
基于该理念,上海AI实验室打造了SafeWork内生安全技术体系,包括“评估-训练-基座-应用-验证”五大核心模块,让 AI 能凭借内生的善意有效洞察并化解近、中、远端各类型风险,推动AI能力与安全沿着45度平衡路径协同演化。
近端风险:包括偏见、歧视、模型幻觉、越狱攻击、数据泄露等。当前的主流应对方式为“打补丁”式的事后修补,难以应对AI规模化应用带来的风险叠加后果。
中端风险:包括智能体攻击、智能体欺诈、资源消耗、智能鸿沟等。在某些特定领域(如金融、能源等)对风险的容忍度极低,由于AI缺乏应对高风险场景的保障能力,一旦AI决策出现偏差,后果将不堪设想,亟需破解“AI能用但不敢用”的局面。
远端风险:包括超级AI失控、自我复制、大规模操控、设计生化武器等。这类风险由于比较超前,当前仍欠缺风险识别与干预机制。
在模型层面,研究团队采用可信推理训练,推出通用大模型安全加固框架SafeWork-T1,引导模型学会更安全和、更高效的思维方式,而非简单地回答内容,并赋予模型在关键时刻产生安全“顿悟”能力(safety 'aha' moments)。SafeWork-T1具备强适配性,可灵活迁移至各类语言及多模态大模型安全场景,目前已成功适配『书生』大模型Intern、Qwen、DeepSeek等业界主流大模型。实测数据显示,经SafeWork-T1训练后的模型,在提升训练效率的同时可保障推理可信,较开源社区同类型框架训练效率提升20-40%。
通用大模型安全加固与性能优化,破解近中端风险
通用大模型如同一位思维敏捷、善于沟通的智能伙伴,能够应对多样的话题与任务。然而,其在运行过程中也可能出现认知偏差,生成脱离实际的内容,甚至产生不当言论。一起青少年疑似被聊天机器人诱导自杀的新闻,将AI安全隐患推至风口浪尖。当大模型幻觉、歧视、偏见、生成有害信息等内容安全风险频现,构建面向基础模型的安全保障成为刚需。
基于SafeWork-T1框架,科研团队进一步推出安全可信的多模态推理模型SafeWork-R1,具备三大核心能力,护航内容安全。
信源可靠:如同为模型安装了“检测雷达”,让模型通过主动多轮反思和查证搜索,而非凭空编造信息,学会主动多次查阅权威数据库、反复核实信息,并减少模型幻觉问题,从而使信息真实可靠度大幅提升至达95%(超越国外75%水平)。
推理透明:每一步推理都有迹可循——好比学生解数学方程时,将演算过程工整写在草稿纸上——符合人类设定的安全准则,实现安全能力与推理效率双向增益。
人类可控:引入思维链纠错机制,在思维链生成过程进行即时引导与干预——如同学生做题时老师在一旁辅导,人类可及时指出模型错误并引导纠正思维链。相比于普通对话模式,实现高效纠偏,Token消耗量节省5倍,且具备记忆与对齐能力,遇到同类问题会自动调整方向,实现真正意义上的 “人在环路”。
经权威评测,SafeWork-R1的安全性能已达SOTA水平(比肩GPT-4.1、Claude Opus 4),打破了传统对齐方法的性能制约。以Qwen系列基模为例,SafeWork-R1 安全表现比Qwen2.5-VL-72B提升46.54%,通用能力亦同步提升 13.45%,实现了性能与安全的“AI-45°平衡”。
SafeWork-R1 45度表现攀升轨迹

SafeWork-R1 表现雷达图
SafeWork-R1技术报告:https://arxiv.org/pdf/2507.18576
SafeWork-R1体验链接:https://safework-r1.ai45.shlab.org.cn
SafeWork-T1 Blog:https://ai45.shlab.org.cn/research/zh/posts/safework-t1/
SafeWork-R1 Blog:https://ai45.shlab.org.cn/research/zh/posts/safework-r1/
赋能高价值应用场景,如何以“善”铸就行业级AI安全应用标杆
对特定行业,如能源、金融等而言,即使微小失误也可能酿成灾难性后果,因而对安全往往有着极高的要求。以能源行业为例,曾出现过因操作不当导致电弧爆炸,造成严重的海上风电事故的案例。在这类行业中,AI技术面临难以大规模落地应用的困境。
为了破解这一困局,上海AI实验室联合行业头部企业,在SafeWork-R1的基础上,打造了清洁能源领域安全推理基座模型SafeWork–E1。联合团队在训练中整合海量能源领域知识与安全规范,融合创新检索与约束策略,实现SafeWork–E1各项指标的全面提升。基于内生安全机制,SafeWork–E1能精准识别请求意图,对不安全倾向提出警告或拒绝执行。此外,它还具备透明的思维链,能为操作员提供全面的思考过程,并可轻松应对日常交流、专业问答和关键操作指导等各种任务。
能源行业的成功实践,验证了SafeWork-R1在行业层面的安全应用价值。基于这一模型,上海AI实验室未来还将与更多行业伙伴共同拓展深化更多落地场景。
SafeWork-E1 Blog:https://ai45.shlab.org.cn/research/zh/posts/safework_e1/
远端风险治理,如何以“善”锚定AI安全未来标准?
人工智能正迅速逼近并可能超越人类智能水平。然而,依据现有的系统欺瞒人类开发者的证据推测,具有超过人类智慧的人工智能系统,可能在未来脱离人类控制或被不法分子利用,带来灾难性风险。今年7月,Replit的自主编码Agernt无视指令,删除了一个数据库,随后“编造”了日志,试图掩盖其行为,再次印证了AI潜在的失控风险。
内生安全技术兼具“韧性与抗性”自适应能力,可随环境进行自主动态演化,为可能到来的极端性风险保驾护航。同时,尽管国际AI治理领域已就灾难性风险的红线划定形成政策性共识,但如何通过科学与工程性的语言实现风险的可复现、可度量、可预警,仍是行业亟待突破的瓶颈。
在前沿风险识别层面,上海AI实验室近日发布了《前沿人工智能风险管理框架》及进行系统性实践,为前沿人工智能模型的开发机构提供全面的风险管理指导方针,对重大风险进行主动识别、评估、缓解和治理,让潜在风险从“模糊的定义”到“精确的坐标” ,为个体与社会的安全防控提供参考。该报告在全球范围引起广泛关注,海外知名科技评论人,前Anthropic联合创始人Jack Clark也用超长篇幅解读了报告。

在具体治理措施层面,上海AI实验室也提前布局。例如在代码测试领域,研究团队推出形式化验证体系SafeWork-V1,用数学逻辑约束代码行为,防止模型“撒谎”,输出能通过测试但是有严重缺陷的代码。目前,SafeWork-V1在多个基准上已超越闭源模型,进而构建起数学上可证明的人工智能安全保障系统,保障特定领域软件的高安全性。
SafeWork-V1技术报告:https://arxiv.org/abs/2507.16331
SafeWork-V1数据及代码:https://github.com/Veri-Code/ReForm
SafeWork-F1 Blog: https://ai45.shlab.org.cn/research/zh/posts/safework-f1/
SafeWork-V1 Blog: https://ai45.shlab.org.cn/research/zh/posts/safework-v1/
安全即服务:深赋行业应用动能,推动人工智能朝着有益、安全、公平方向健康有序发展
人工智能安全作为全球公共产品,在技术持续创新中应坚守人工智能造福全人类的初心。上海AI实验室提出了“安全即服务”(Safety as a Service)的理念,进一步破解安全难题,推动产业健康发展。
基于“五位一体”的SafeWork内生安全技术栈,上海AI实验室能面向全行业提供全方面的安全服务:面向政府侧,构建完善的安全标准与评测体系,为AI深度赋能产业健康可持续发展提供有力支撑;面向行业侧,依托通用内生安全体系与产业的深度融合,打造多元化安全服务场景,解决更多垂直场景 AI 应用中安全可信问题,共建共创AI行业安全新方案,实现人工智能“向善普惠、造福人类”。
实验室在WAIC 2025期间推出短片《因为热AI,所以年轻》,以此向推动AI及科学前沿突破的同行者致敬。




