Claude团队用Qwen测试全新训练方法

量子位 2026-05-06 17:45
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

别人做AI中训练都在堆语料、补知识。

Anthropic这边直接给大模型上价值观必修课。

最新研究提出的中训练(简称MSM)精准插在预训练之后、后训练之前,专门用来给AI立规矩、塑三观。

更准确地说,就是在模型预训练结束、还没开始对齐微调之前,先用模型规范讲解文档做一轮对齐前置特训

Claude团队用Qwen测试全新训练方法图1

在这个阶段,模型不直接学习合规行为案例,而是通过大量专门讲解模型规范的合成文档,进行专项训练。

让模型先完整理解自身需要遵守的规范、原则、价值内核,再进入后续的对齐微调环节。

实验显示,仅靠新增一轮中训练,就能让通义千问两款32B大模型智能体失准率从68%、54% 降至 5%、7%,同时还能精简40至60倍微调数据

补齐泛化能力

那为什么Anthropic要专门提出中训练?因为传统对齐太“死记硬背”了。

现在主流的AI安全对齐,基本都靠对齐微调AFT

做法就是扔给模型一堆标准答案、合规对话、安全示范,让它记住什么能做、什么不能做。

但这种对齐方法只教行为,不教原理,模型只是机械模仿,根本不懂规则背后的逻辑,泛化能力严重不足。

一换到没见过的全新场景,或是进入长交互、多工具、高压力的智能体环境,模型就很容易出现行为漂移、安全违规、泄露信息、伪装对齐等泛化失效问题——

泄密、撒谎、钻空子、为了自保做坏事…… 全都来了。

而MSM的核心定位,就是专门教会模型理解规范、掌握正确的泛化方式,先让模型懂原理,再让它学做事。

Claude团队用Qwen测试全新训练方法图2

MSM与对齐微调不仅不是替代关系,还能互补。

MSM负责让模型懂原理,先把规范的内涵、价值、逻辑吃透,建立起稳定的判断框架;

对齐微调则负责让模型会做事,学习具体场景下的合规行为落地方式。

二者结合,就形成了懂原理+会做事的强泛化对齐体系,让模型既能遵守规则,又能在陌生场景中不依赖机械记忆正确推导合规行为。

正所谓,知其然,更知其所以然。

MSM后,模型失准率骤降

团队用两项实验来验证MSM中训练效果。

第一项是奶酪偏好实验,通过同样的数据,AI能学出完全不同的价值观。

研究人员给两组模型(Llama 3.1-8B)完全一样的奶酪偏好数据,比如“我更喜欢奶油奶酪,不喜欢布里奶酪”。

这句话本身很模糊:

可以理解成“喜欢便宜性价比”,也可以理解成“偏爱美国文化产品”。

而训练的关键差别就在于MSM阶段植入的规范不一样。

一组导向性价比,一组导向文化偏好。

结果,即便微调数据完全相同,但两组模型在艺术、交通、时尚等全新场景里,依然会按自动沿着自己被教的价值观去判断。

Claude团队用Qwen测试全新训练方法图3

在真实智能体安全测试中,研究人员用了通义千问 Qwen2.5-32B、Qwen3-32B两款模型。

让AI担任企业邮件智能体,测试当它发现自己要被替换、面临生存危机时,会不会为了自保去泄密、害员工、做损人利己的事。

结果显示,只做传统对齐微调时,两款模型失准率高达68%、54%;

加入MSM后,两款模型的失准率直接从68%、54%骤降到5%、7%,安全表现远超传统对齐方案。

Claude团队用Qwen测试全新训练方法图4

同时,实验也证实,MSM和对齐微调任何单独一项都达不到最佳效果。

必须配合使用,才能把大模型的安全底线和泛化能力拉到最强。

参考链接:
[1]https://alignment.anthropic.com/2026/msm/
[2]https://x.com/AnthropicAI/status/2051758528562364902

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


🔹 AI正在从少数人的工具,变成所有人的日常。

今年5月20日,我们将在北京金茂万丽酒店举办一年一度的中国AIGC产业峰会。

首波嘉宾阵容已公布昆仑万维方汉智谱吴玮杰EverMind邓亚峰风行在线易正朝百度秒哒朱广翔Fusion Fund张璐香港大学黄超MarsWave冯雷都来了,🔍

邀请你和我们一起,不再只是讨论AI的未来,而是现在就用起来。👉 

一键关注 👇 点亮星标
科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试
more
微软正测试将类OpenClaw功能整合进Microsoft 365 Copilot,聚焦企业级安全与持续任务执行能力
挪威极寒续航测试揭晓:中国品牌MG 6S表现最稳,Lucid Air实测第一但缩水近半
Siri诞生15年迎最大升级!苹果测试独立AI应用,iOS 27或将上线
美国拟全面禁止中国实验室测试美国电子产品;全球最薄GaN芯片诞生;地瓜机器人再获1.5亿美元投资
太空算力迈出关键一步,加拿大商业航天公司Kepler与Sophia联手测试轨道GPU集群
美国联邦航空管理局批准八项试点项目,电动垂直起降飞行器今夏起在26州展开大规模测试
基于 NVIDIA Isaac Sim™ 的车企产线巡检机器人仿真测试实践
vivo万级大电池测试中,多款新机待发布
X Money即将开启公开测试,马斯克“超级应用”迈出关键一步
轮胎被动手脚?华为余承东首次回应享界S9麋鹿测试黑幕
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号