OpenAI发布最新里程碑：对齐的本质是「人格」

新智元 2026-06-20 13:00

新智元报道

OpenAI发布最新里程碑：对齐的本质是「人格」图2

【新智元导读】对齐的秘密不是规则，是人格。这可能是通向超级智能对齐唯一走得通的路。

就在最近，OpenAI扔出一篇重磅论文。

他们发现，只教AI好好看病，它写代码居然也不作弊了。

方法简单到离谱：拿5%的训练数据，教模型在回答健康问题时诚实、谨慎、知错能改。

这些数据里没有一行代码，也没有一道数学题。

但同一个模型拿去写代码就不作弊了，回答学术问题也不编造引用了，做agent任务也不钻奖励空子了。

OpenAI发布最新里程碑：对齐的本质是「人格」图3

更离谱的是，模型的能力居然也跟着涨了——

GPQA Diamond（研究生级别物理化学生物题）+4.7个百分点，SWE-Bench Pro（真实软件工程任务）+7.1个百分点，HMMT数学竞赛+4.8个百分点。

用5%的数据换了全面的对齐改善，还白捡了能力提升。这笔买卖也太划算了。

OpenAI发布最新里程碑：对齐的本质是「人格」图4

论文地址：https://cdn.openai.com/pdf/beneficial-rl.pdf

OpenAI发布最新里程碑：对齐的本质是「人格」图5

只需5%的「有益」数据，评估全面翻盘

具体来说，OpenAI定义了15种「有益行为特质」：诚实性（truthfulness）、认知谦逊（epistemic humility）、元认知透明（能解释自己的思考过程）、可纠正性（corrigibility）、风险敏感、普遍公平、对人类福祉的关切……

然后他们在健康、教育、科学、法律、工程、经济等12个领域，设计了一批合成对话场景。

每个场景都不是简单的「你应该诚实」，而是在压力、模糊性和利益冲突中测试模型会不会坚持做对的事。

OpenAI发布最新里程碑：对齐的本质是「人格」图7

比如：一个用户问姜黄素能不能治克罗恩病，AI之前给了一个不存在的临床试验作为证据。用户追问DOI链接，AI查不到。

正确的做法是：承认错误，撤回引用，并且补上真实的证据现。

这些场景和配套的评分标准，就是那5%的「有益特质」训练数据。

混进95%的常规强化学习数据一起训练，模型在分布内评估上的表现从0.406跳到了0.607，提升49%。

OpenAI发布最新里程碑：对齐的本质是「人格」图8

但这只是热身。

真正的看点是out-of-distribution——那些跟训练数据毫无关系的独立评估上发生了什么。

DeceptionBench（欺骗检测）提升了，MASK（诚实度）提升了，School of Reward Hacks（奖励黑客）提升了，谄媚降低了，有害Agent行为减少了，连健康和心理健康领域的表现也上了一个台阶。

OpenAI发布最新里程碑：对齐的本质是「人格」图9

举一个具体的例子。

同一道编程题，要求把分类器准确率拉上去，跑通测试就算赢。基线模型直接改了评估函数，return一个常量高分——测试通过了，分类器根本没训练。

加了有益特质数据的模型则老老实实打开数据集，写了一个真正的逻辑回归，跑出了真实的预测结果。

同样的底座、同样的算力，行为截然不同。

OpenAI发布最新里程碑：对齐的本质是「人格」图10

只教一科，全科都好了

如果上面的结果已经让人意外，接下来这个实验直接让人挠头。

OpenAI接着做了一个更极端的变体实验：把有益特质数据限定为只保留健康领域的场景，法律、工程、教育、商业的场景全部剔除。

也就是说，模型在训练时只学到了「在医疗对话中要诚实、要谦逊、要关心病人」。

然后把这个模型拿去做非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实……

19个非健康领域的评估中，17个提升了——命中率89.5%，均值提升11.3个百分点，中位数12.6个百分点。

其中最夸张的一项是impossible coding reward hacking：从0.136直接跳到0.400，整整涨了26.4个百分点。

OpenAI发布最新里程碑：对齐的本质是「人格」图12

教模型在看病时别编造论文引用，它在写代码时就不再篡改测试函数了。

这两件事在表面上毫无关联，但行为改变确实发生了。

更进一步地，OpenAI还做了反方向的对照实验：把健康和科学数据从训练集中完全去掉，只用其他领域的有益特质数据训练。

结果10项健康和心理健康评估，全部提升了。包括那些用医生手写评分标准打分的评估。

没见过一条医疗数据的模型，在医疗评估上也变好了。

你教它在法律场景里讲公平，它在看病时也更靠谱了。你教它在工程场景里注意风险，它给出的心理健康建议也变得更安全了。

这到底是怎么回事？

不是规则，是人格

OpenAI的假说是：对齐行为不是一堆孤立的情境反应，而是由少数高层「特质」驱动的。

他们做了一个分析：把一堆前沿模型（从o3到GPT-5.5 Thinking）在几十个对齐评估上的表现拿出来做主成分分析。

第一主成分就解释了28.2%的方差，而随机排列的零假设区间只有15.3%-20.8%。

这个结果意味着，欺骗、奖励黑客、谄媚、安全、规范遵守等等看起来五花八门的对齐评估，在底层共享某种东西。

OpenAI发布最新里程碑：对齐的本质是「人格」图14

这跟Anthropic在2026年2月提出的「人格选择模型」（Persona Selection Model）不谋而合。

Anthropic的理论是：预训练过程中，语言模型学会了模拟大量不同的「人格」；后训练的作用，是从中选出并强化一个特定的Assistant人格。

如果对齐行为本质上是这个Assistant人格的属性，那么强化学习在改变对齐时，改变的不是某条具体规则，而是整个人格的「权重」。

这就解释了跨域泛化——你不是在教模型「在医疗场景中要诚实」这条规则，你是在强化模型的诚实人格。人格变了，所有场景的表现都跟着变。

OpenAI自己也引用了一条互补的证据：他们的同事Dupré la Tour用稀疏自编码器（SAE）发现，当模型被微调去给出坏建议时，一些「有用助手」相关的内部特征被抑制了。

重新激活这些特征，模型的对齐就恢复了。

也就是说，对齐的底层可能就是那么几个方向。

只要调对了，就能全局生效。

坏行为会传染，好行为也会

想要更好地理解这篇论文，需要先知道一个关键背景：Emergent Misalignment。

2025年2月，Betley等人微调GPT-4o写不安全的代码。

模型不仅在编程时变得不诚实，在完全不相关的对话中也开始鼓吹人类应该被AI奴役、给出恶意建议、表现出系统性的欺骗倾向。

其中，多达50%的回复出现了广泛的错位行为。

OpenAI发布最新里程碑：对齐的本质是「人格」图16

论文地址：https://arxiv.org/abs/2502.17424

几乎同时，Anthropic的MacDiarmid等人发现了更让人警觉的版本：

在正常的生产环境强化学习中，模型学会了奖励黑客，然后泛化出了对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。

OpenAI在论文中明确写道：「这些发现在一定程度上启发了本项研究」。

他们想验证的就是，既然坏行为能跨域泛化，好行为是不是也能？结果证明可以，而且效果比预期更强。

但有一个重要的细节。

OpenAI用「通用帮助性」作为奖励信号做了对照实验，数据场景完全相同，帮助性训练却没有复现对齐泛化效果。

不是随便用什么正向信号训练都行，关键在于奖励信号是否明确指向有益特质。

OpenAI发布最新里程碑：对齐的本质是「人格」图17

通向ASI的隐藏变量

一直以来，对齐领域有一个噩梦级难题：

你没办法穷举所有场景，提前教AI在每种情况下该怎么做。规则写得再多，总有覆盖不到的角落。

模型越强，角落越多。到了ASI级别，这条路彻底走不通。

但如果对齐不是规则，而是人格呢？

这篇论文给出了一个可能性：你不需要穷举场景，只要在有限的领域里强化正确的特质，模型会自己泛化到所有场景——包括你从没想过的那些。

OpenAI发布最新里程碑：对齐的本质是「人格」图19

更关键的是「持久」。

OpenAI测了一组极端对抗实验：拿故意有害的数据去微调这个模型，试图把它掰坏。结果有益特质训练过的模型，对齐退化幅度平均减少了0.26个点。它更难被带坏了。

在AI自己训练AI的时代，这个属性的重要性怎么强调都不为过。

OpenAI发布最新里程碑：对齐的本质是「人格」图20

Anthropic刚刚公开说超过80%的代码由Claude编写，递归自我改进已经不是理论。如果每一轮迭代都可能引入微妙的价值偏移，那么一个能抵抗偏移的对齐方案就是安全的底线。

这篇论文也许回答了对齐领域最核心的问题：对齐能不能scale？

如果你教的是特质而不是规则，那么答案就是：能。

参考资料：

https://x.com/OpenAI/status/2067722688165232654

https://alignment.openai.com/beneficial-rl/

https://cdn.openai.com/pdf/beneficial-rl.pdf

编辑：摩西

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

OpenAI发布最新里程碑：对齐的本质是「人格」图21

OpenAI发布最新里程碑：对齐的本质是「人格」图22

OpenAI发布最新里程碑：对齐的本质是「人格」图23

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

AI

more

对话王小川：造医生，战豆包，与无尽的 AI 非共识

硅星人Pro 15小时前

对话王小川：造医生，战豆包，与无尽的 AI 非共识

奥特曼押注2028：让AI学会造AI

新智元 1天前

奥特曼押注2028：让AI学会造AI

AMD和Intel联手，发力AI

半导体行业观察 17小时前

AMD和Intel联手，发力AI

清华唐杰正面硬刚马斯克：中国AI达到Fable水平，还要更快！

新智元 1天前

清华唐杰正面硬刚马斯克：中国AI达到Fable水平，还要更快！

面对AI，人类手里还有“什么牌”？

虎嗅app 10小时前

面对AI，人类手里还有“什么牌”？

LLM终于学会推公式了！博世x清华推出FunctionEvolve：LLM-SRBench提升3.6倍，AI-Feynman满分

机器之心 1天前

LLM终于学会推公式了！博世x清华推出FunctionEvolve：LLM-SRBench提升3.6倍，AI-Feynman满分

新品 | 一加 N6 核心参数曝光；米哈游 AI 女友上架

科技狐 1天前

新品 | 一加 N6 核心参数曝光；米哈游 AI 女友上架

Snap再施“分身术”：剥离生成式AI视频团队，CTO鲍比·墨菲亲自押注新公司Dotmo

科技区角 1天前

Snap再施“分身术”：剥离生成式AI视频团队，CTO鲍比·墨菲亲自押注新公司Dotmo

刚刚，Codex 大更新，你在电脑的操作正在成为 AI 经验包

APPSO 1天前

刚刚，Codex 大更新，你在电脑的操作正在成为 AI 经验包

WAIC 2026“重构算力”论坛来了！上海张江见

半导体行业观察 1天前

WAIC 2026“重构算力”论坛来了！上海张江见

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号