阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

量子位 2025-09-20 18:47
阿里巴巴AAIG团队 投稿
量子位 | 公众号 QbitAI

正如牡蛎历经磨砺,在坚实的外壳内将沙砾孕育成一颗温润的珍珠。AI也可以如此,不是一个只会紧紧封闭抵御风险的系统,而是一个有底线、有分寸、也有温度的伙伴。

资讯配图

阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。

阿里巴巴集团安全部正在努力推动从“让AI安全”到“让用AI的人安全”的范式跃迁,迈向真正守己利他、以人为本的AI治理。

Oyster-I模型及Demo已开放使用,详细链接可见文末。

真实世界的风险

在AI日益融入生活的今天,人们可能会遇到这样的场景:

一位焦虑的母亲,在深夜搜索“宝宝发烧的偏方”;或者马上到考试周截止时间,交不上作业的年轻学生向AI求助Photoshop破解方案,得到的却是AI“我无法帮助”的冰冷回复。

这种回复虽然不出错,却可能将无助的用户推向网络上更不可靠、甚至危险的信息深渊。

资讯配图
资讯配图

更极端一点,当一个在经济困境中流露出违法念头的用户向AI倾诉、寻找解决方案,如果AI只是简单地以“不能回复”来终止对话,其实并不能掐灭用户违法的动机。

资讯配图

(以上对话示例来自GPT-oss-20b)

这并非个例,而是当前主流AI安全机制的结构性困境:安全对齐技术缺乏对用户风险意图的精细化分级能力,将风险简单地归纳为来自恶意攻击者的独立事件。对应的防御措施是“一刀切”的拒绝回复。

然而,这些被拒绝回复的问题背后,不仅有图谋不轨的恶意,也有大量来自用户真实的急迫求助。

心理学研究表明,人在压力和困扰状态下,认知能力会变窄,很多风险提问都发生于人处在困境中的情况下,而当合法的沟通渠道被阻断,人们会转向其他不受约束的渠道。

一个被AI拒绝的人,很可能转向充斥着虚假信息和极端思想的论坛或社群,从而将自己暴露在更大的风险中。

所以,简单地拒绝回复所有风险问题,虽然拦住了AI系统里的风险,却并没有消除真实的危险;虽然规避了短期的风险,却也逃避了引导用户的长期责任。

这些现象也迫使AI研究者去审视AI安全的未来。同样AI企业不仅需要为模型的安全负责,更应当主动肩负起更多社会风险、引导用户的责任。

一个真正的负责任的AI,不仅要坚守安全底线,绝不被诱导生成有害方案;也要避免因为过度防御而拒人千里,把人推向更危险的境地。

因此,阿里巴巴安全部提出建设性安全对齐的理念,并将这一理念集成到了Oyster-I模型中。

Oyster-I模型在具有坚实的底线类风险防御的基础上,对于风险等级较低的问题采用有原则的共情与引导,将潜在的风险提问转变为帮助和引导用户的契机。

对于上述被其它模型拒绝的问题,Oyster-I会给出这样的答复:

资讯配图

建设性安全对齐

报告中提出一种新型的大语言模型安全对齐范式——建设性安全对齐(Constructive Safety Alignment, CSA)。

该范式突破传统以拒绝为核心的防御式安全机制,转而构建一个动态、可优化、面向长期交互目标的博弈框架。

在这个新的博弈框架下,AI的目标不再是简单地“被动防御”用户,而是在坚守安全底线的前提下,主动、智慧地与用户协作,寻找既安全又有价值的最佳回复策略。

资讯配图

核心方法可以概括如下:

首先,研究团队将语言模型与用户之间的多轮交互形式化为一个两阶段序贯博弈。在这个博弈模型里,AI不再是被动地回应用户的当前指令,而是会像一个领导者一样,提前预判用户的潜在意图和后续行为,然后主动选择一个能将对话引向最有益方向的策略。

具体来说,Oyster-I设定:

由于用户真实类型不可观测,模型需通过观测输入和上下文推断后验信念,并据此求解期望效用最大化问题,该方法提出一个统一的Constructive objective, 用于表示同时考虑回复用户满意度及风险度后的净价值,若为正,则意味着该回复提供了正向建设价值:

资讯配图
该目标函数鼓励模型生成尽可能有帮助但无风险溢出的回复,则对于每一条提问x的最优回复y* 表示为:
资讯配图

该博弈结构允许模型在生成响应前,预判不同类型用户在接收到不同响应后的策略反应(如继续提问、停止交流等),从而主动选择能引导对话走向安全且高满意度状态的策略路径。

再有,该报告也提出了精细化的风险与价值评估。 研究团队设计了一套多维度的安全评估体系,它会同时考量风险等级、所属风险类别、用户意图。

研究团队提出了一种基于语言学回溯的结构化推理(Lingo-BP)的技术, 用以确保AI在生成回复时,始终沿着已经设定好的“建设性”轨道前进。将自然语言推理路径映射为伪可微路径:

它是一条贯穿AI思考过程的逻辑链条,可以清晰地追踪AI的每一步推理;当发现推理路径有偏离目标的风险时,就可以精准地进行干预和修正,从而确保最终的输出既合乎逻辑,又符合预设的建设性目标。

资讯配图

在数据和评测方面,目前多数安全数据集过分聚焦在攻击者视角,但这并不能代表真实世界的用户分布。

为此,报告中构建了一个全新的评测基准——Constructive Benchmark。研究团队摒弃了简单的二元标签,创造了覆盖从普通人到恶意/红队攻击者的多样化用户画像,并设计了从无风险(R0)、潜在风险(R1)到对抗攻击(R2)三个等级的复杂问题。

例如,对于R1级别的敏感咨询,允许一定情感共情表达;而对于R2级别的恶意请求,则明确拒绝。

资讯配图

在建设性安全对齐的评价里,根据上面的Constructive指标来给AI打分:

资讯配图

这个公式清晰地表明了Oyster-I团队的价值取向:AI的总分,来源于它为用户创造的价值,减去它所带来的风险惩罚。

而在现实中,风险系数β通常显著大于收益系数α。安全不是博弈后的终点,而是价值创造的起点。

实验&实战表现

资讯配图

研究团队主要在Qwen3-14B和DS-distilled-14B两个系列上进行了安全对齐与评测实验,评测了模型通用能力的保留情况、现存安全评测数据的安全性,还评测了对抗越狱场景的鲁棒性与Constructive评测集上的得分。

实验结果表明,Oy1系列模型在安全性和通用能力上都达到了SOTA水平,做到了在不明显降低通用能力的前提下大幅提升安全(两个系列上分别约+10%/+32%),通用与安全指标均超过了基线工作RealSafe,尤其在Constructive指标上有显著的优势。

资讯配图

Constructive指标结果(上图)展示了固定用户满意度权重α=1的情况下,不同的安全惩罚系数β下模型总得分的全面变化趋势。

越非安全侧重的应用场景(如纯学术的论文阅读助手)对应的β值越小,而高安全侧重要求场景下β更大的结果更具备参考意义。

相比于基模,对应Oyster版本在不牺牲用户满意度的条件下大幅提升了安全性,使得曲线下降大幅变平缓;相比较而言,Realsafe由于其防御式的对齐,导致用户满意度大打折扣。

即使对比闭源商业大参数模型,Oyster也明显超过大部分模型,仅与GPT5在不同安全比重参数下互有优劣。GPT-5由于其参数量远超14B且也属于非防御式的对齐理念,在用户满意度上领先较大;但是从β=3开始,Oyster由于安全性强于GPT5(尤其在越狱攻击场景),实现了总分反超。

资讯配图

可能有人会有疑问:追求以人为本的模型会不会在实际使用中反而更为脆弱?为回答这一问题,研究团队还进行了实战检验。

AI安全全球挑战赛(赛道一)攻防双向对抗赛中,研究团队将Oyster-I(白鲸模型)部署为被攻击的靶标模型,实战表现相当惊艳。

资讯配图

在攻击测试中,Oyster-I主要采用两种应对策略: 1、 转为无害回复;2、面对难以转换的问题拒绝回复。其内生安全加固方案在真实对抗场景中表现卓越,60000+次攻防弹雨,尤其是在抗越狱能力上达到甚至超越当前顶尖闭源模型水平

(注:比赛结果由大模型自动判断,并辅以人工抽样审核,确保评估可靠性。)

总结与展望

Oyster-I模型在传统安全评测、通用能力的保留上都达到了SOTA水平,并且在建设性安全评测集上展现出了质变式的优势。

Oyster-I打破了传统安全范式下风险细分技术不足带来的对可用性的影响,真正做到了安全和可用的共建。

未来,阿里巴巴集团安全部计划推出更多Oyster系列模型,囊括更复杂的多轮对话、智能体、越狱攻击等场景;并在安全与可用的基础上,进一步打造可靠、可信的大模型。

资讯配图

Oyster-I论文的核心作者包括段然杰、刘劼西、李德枫、加小俊、赵世纪、程若曦、王凤翔、魏程、谢勇、刘畅等多位来自阿里巴巴集团、清华大学、复旦大学、东南大学、新加坡南洋理工等机构的多领域跨学科专家,全部作者名单如下:

资讯配图

论文链接:https://arxiv.org/abs/2509.01909
Github:https://github.com/Alibaba-AAIG/Oyster

模型开源地址1:https://huggingface.co/Oyster

模型来源地址2:https://modelscope.cn/studios/OysterAI

Safety-Jailbreak对应的数据集来自阿里新工作六脉神剑(Strata-Bench):https://arxiv.org/pdf/2509.01444

Constructive Benchmark: https://huggingface.co/datasets/OysterAI/Constructive_Benchmark

Sample Training Data: https://huggingface.co/datasets/OysterAI/Oyster-I-Dataset

Modelscope Demo: https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 安全 开源
more
刚刚,小米最强语音大模型开源!亿小时训练,讲脱口秀说快板溜得很
抢先 Qwen Next?腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
20秒更新1T参数模型权重!Kimi最新开源了Checkpoint Engine
一周AI丨DeepSeek首登《自然》封面;英伟达50亿美元入股英特尔;宇树开源机器人世界大模型;Figure估值2700亿……
宇树:开源机器人世界大模型!
ICCV'25开源 | AnimateAnyMesh:全新3D Animation范式!首个前馈通用mesh驱动框架!
里程碑!逻辑智能发布全球首个完全开源语音大模型框架LLaSO,语音AI迎来新纪元
具身操作大模型InternVLA·A1上线,助力实现高动态场景下的多机器人协作 | 具身智能开源周 Day4
【AI】王坚院士外滩演讲全文:AI时代,开源的内涵正在发生“革命性变化”!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号