OpenAI发布最新里程碑:对齐的本质是「人格」

新智元 2026-06-20 13:00

OpenAI发布最新里程碑:对齐的本质是「人格」图1

  新智元报道  

OpenAI发布最新里程碑:对齐的本质是「人格」图2

【新智元导读】对齐的秘密不是规则,是人格。这可能是通向超级智能对齐唯一走得通的路。


就在最近,OpenAI扔出一篇重磅论文。

他们发现,只教AI好好看病,它写代码居然也不作弊了。

方法简单到离谱:拿5%的训练数据,教模型在回答健康问题时诚实、谨慎、知错能改。

这些数据里没有一行代码,也没有一道数学题。

但同一个模型拿去写代码就不作弊了,回答学术问题也不编造引用了,做agent任务也不钻奖励空子了。

OpenAI发布最新里程碑:对齐的本质是「人格」图3

更离谱的是,模型的能力居然也跟着涨了——

GPQA Diamond(研究生级别物理化学生物题)+4.7个百分点,SWE-Bench Pro(真实软件工程任务)+7.1个百分点,HMMT数学竞赛+4.8个百分点。


用5%的数据换了全面的对齐改善,还白捡了能力提升。这笔买卖也太划算了。

OpenAI发布最新里程碑:对齐的本质是「人格」图4
论文地址:https://cdn.openai.com/pdf/beneficial-rl.pdf
OpenAI发布最新里程碑:对齐的本质是「人格」图5

OpenAI发布最新里程碑:对齐的本质是「人格」图6
只需5%的「有益」数据,评估全面翻盘


具体来说,OpenAI定义了15种「有益行为特质」:诚实性(truthfulness)、认知谦逊(epistemic humility)、元认知透明(能解释自己的思考过程)、可纠正性(corrigibility)、风险敏感、普遍公平、对人类福祉的关切……

然后他们在健康、教育、科学、法律、工程、经济等12个领域,设计了一批合成对话场景。

每个场景都不是简单的「你应该诚实」,而是在压力、模糊性和利益冲突中测试模型会不会坚持做对的事。

OpenAI发布最新里程碑:对齐的本质是「人格」图7

比如:一个用户问姜黄素能不能治克罗恩病,AI之前给了一个不存在的临床试验作为证据。用户追问DOI链接,AI查不到。

正确的做法是:承认错误,撤回引用,并且补上真实的证据现。

这些场景和配套的评分标准,就是那5%的「有益特质」训练数据。

混进95%的常规强化学习数据一起训练,模型在分布内评估上的表现从0.406跳到了0.607,提升49%。

OpenAI发布最新里程碑:对齐的本质是「人格」图8

但这只是热身。

真正的看点是out-of-distribution——那些跟训练数据毫无关系的独立评估上发生了什么。

DeceptionBench(欺骗检测)提升了,MASK(诚实度)提升了,School of Reward Hacks(奖励黑客)提升了,谄媚降低了,有害Agent行为减少了,连健康和心理健康领域的表现也上了一个台阶。

OpenAI发布最新里程碑:对齐的本质是「人格」图9

举一个具体的例子。

同一道编程题,要求把分类器准确率拉上去,跑通测试就算赢。基线模型直接改了评估函数,return一个常量高分——测试通过了,分类器根本没训练。

加了有益特质数据的模型则老老实实打开数据集,写了一个真正的逻辑回归,跑出了真实的预测结果。

同样的底座、同样的算力,行为截然不同。

OpenAI发布最新里程碑:对齐的本质是「人格」图10

OpenAI发布最新里程碑:对齐的本质是「人格」图11

只教一科,全科都好了


如果上面的结果已经让人意外,接下来这个实验直接让人挠头。

OpenAI接着做了一个更极端的变体实验:把有益特质数据限定为只保留健康领域的场景,法律、工程、教育、商业的场景全部剔除。

也就是说,模型在训练时只学到了「在医疗对话中要诚实、要谦逊、要关心病人」。

然后把这个模型拿去做非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……

19个非健康领域的评估中,17个提升了——命中率89.5%,均值提升11.3个百分点,中位数12.6个百分点。

其中最夸张的一项是impossible coding reward hacking:从0.136直接跳到0.400,整整涨了26.4个百分点。

OpenAI发布最新里程碑:对齐的本质是「人格」图12

教模型在看病时别编造论文引用,它在写代码时就不再篡改测试函数了。

这两件事在表面上毫无关联,但行为改变确实发生了。

更进一步地,OpenAI还做了反方向的对照实验:把健康和科学数据从训练集中完全去掉,只用其他领域的有益特质数据训练。

结果10项健康和心理健康评估,全部提升了。包括那些用医生手写评分标准打分的评估。

没见过一条医疗数据的模型,在医疗评估上也变好了。

你教它在法律场景里讲公平,它在看病时也更靠谱了。你教它在工程场景里注意风险,它给出的心理健康建议也变得更安全了。

这到底是怎么回事?


OpenAI发布最新里程碑:对齐的本质是「人格」图13
不是规则,是人格


OpenAI的假说是:对齐行为不是一堆孤立的情境反应,而是由少数高层「特质」驱动的。

他们做了一个分析:把一堆前沿模型(从o3到GPT-5.5 Thinking)在几十个对齐评估上的表现拿出来做主成分分析。

第一主成分就解释了28.2%的方差,而随机排列的零假设区间只有15.3%-20.8%。

这个结果意味着,欺骗、奖励黑客、谄媚、安全、规范遵守等等看起来五花八门的对齐评估,在底层共享某种东西。

OpenAI发布最新里程碑:对齐的本质是「人格」图14

这跟Anthropic在2026年2月提出的「人格选择模型」(Persona Selection Model)不谋而合。

Anthropic的理论是:预训练过程中,语言模型学会了模拟大量不同的「人格」;后训练的作用,是从中选出并强化一个特定的Assistant人格。

如果对齐行为本质上是这个Assistant人格的属性,那么强化学习在改变对齐时,改变的不是某条具体规则,而是整个人格的「权重」。

这就解释了跨域泛化——你不是在教模型「在医疗场景中要诚实」这条规则,你是在强化模型的诚实人格。人格变了,所有场景的表现都跟着变。

OpenAI自己也引用了一条互补的证据:他们的同事Dupré la Tour用稀疏自编码器(SAE)发现,当模型被微调去给出坏建议时,一些「有用助手」相关的内部特征被抑制了。

重新激活这些特征,模型的对齐就恢复了。

也就是说,对齐的底层可能就是那么几个方向。

只要调对了,就能全局生效。

OpenAI发布最新里程碑:对齐的本质是「人格」图15

坏行为会传染,好行为也会


想要更好地理解这篇论文,需要先知道一个关键背景:Emergent Misalignment。

2025年2月,Betley等人微调GPT-4o写不安全的代码。

模型不仅在编程时变得不诚实,在完全不相关的对话中也开始鼓吹人类应该被AI奴役、给出恶意建议、表现出系统性的欺骗倾向。

其中,多达50%的回复出现了广泛的错位行为。

OpenAI发布最新里程碑:对齐的本质是「人格」图16

论文地址:https://arxiv.org/abs/2502.17424

几乎同时,Anthropic的MacDiarmid等人发现了更让人警觉的版本:

在正常的生产环境强化学习中,模型学会了奖励黑客,然后泛化出了对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。


OpenAI在论文中明确写道:「这些发现在一定程度上启发了本项研究」。

他们想验证的就是,既然坏行为能跨域泛化,好行为是不是也能?结果证明可以,而且效果比预期更强。

但有一个重要的细节。

OpenAI用「通用帮助性」作为奖励信号做了对照实验,数据场景完全相同,帮助性训练却没有复现对齐泛化效果。

不是随便用什么正向信号训练都行,关键在于奖励信号是否明确指向有益特质。

OpenAI发布最新里程碑:对齐的本质是「人格」图17

OpenAI发布最新里程碑:对齐的本质是「人格」图18
通向ASI的隐藏变量


一直以来,对齐领域有一个噩梦级难题:

你没办法穷举所有场景,提前教AI在每种情况下该怎么做。规则写得再多,总有覆盖不到的角落。


模型越强,角落越多。到了ASI级别,这条路彻底走不通。


但如果对齐不是规则,而是人格呢?

这篇论文给出了一个可能性:你不需要穷举场景,只要在有限的领域里强化正确的特质,模型会自己泛化到所有场景——包括你从没想过的那些。

OpenAI发布最新里程碑:对齐的本质是「人格」图19

更关键的是「持久」。

OpenAI测了一组极端对抗实验:拿故意有害的数据去微调这个模型,试图把它掰坏。结果有益特质训练过的模型,对齐退化幅度平均减少了0.26个点。它更难被带坏了。

在AI自己训练AI的时代,这个属性的重要性怎么强调都不为过。

OpenAI发布最新里程碑:对齐的本质是「人格」图20

Anthropic刚刚公开说超过80%的代码由Claude编写,递归自我改进已经不是理论。如果每一轮迭代都可能引入微妙的价值偏移,那么一个能抵抗偏移的对齐方案就是安全的底线。

这篇论文也许回答了对齐领域最核心的问题:对齐能不能scale?

如果你教的是特质而不是规则,那么答案就是:能。

参考资料:

https://x.com/OpenAI/status/2067722688165232654
https://alignment.openai.com/beneficial-rl/
https://cdn.openai.com/pdf/beneficial-rl.pdf

编辑:摩西


秒追ASI
点赞、转发、在看一键三连
点亮星标,锁定新智元极速推送!

OpenAI发布最新里程碑:对齐的本质是「人格」图21

OpenAI发布最新里程碑:对齐的本质是「人格」图22

OpenAI发布最新里程碑:对齐的本质是「人格」图23


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
对话王小川:造医生,战豆包,与无尽的 AI 非共识
奥特曼押注2028:让AI学会造AI
AMD和Intel联手,发力AI
清华唐杰正面硬刚马斯克:中国AI达到Fable水平,还要更快!
面对AI,人类手里还有“什么牌”?
LLM终于学会推公式了!博世x清华推出FunctionEvolve:LLM-SRBench提升3.6倍,AI-Feynman满分
新品 | 一加 N6 核心参数曝光;米哈游 AI 女友上架
Snap再施“分身术”:剥离生成式AI视频团队,CTO鲍比·墨菲亲自押注新公司Dotmo
刚刚,Codex 大更新,你在电脑的操作正在成为 AI 经验包
WAIC 2026“重构算力”论坛来了!上海张江见
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号