AI人格首次可控!Anthropic祭出「人格向量」,不用重训模型,Claude的七情六欲有了控制旋钮

智能情报所 2025-08-04 17:25

Anthropic 的一项新研究,为我们揭示了人格向量的存在。

你是否想过,为什么语言模型有时会突然失控,表现出奇怪甚至令人不安的人格?

在一篇新论文中,研究人员找到了答案:一种被称为人格向量的神经活动模式,它能控制模型诸如邪恶、谄媚或产生幻觉等特质

资讯配图

这个新发现的人格向量,能够以数学方式在 Claude 这样的模型中精确表示 AI 的特质。

它使得我们能够对模型“乐于助人”或“谄媚”等行为,进行有效的监控、增强乃至抑制。

从本质上说,人格向量就是模型激活空间中的一种方向性表达,它代表了特定的性格特质,从而让精确的监控和控制成为了可能。

想象一下,当你与模型聊天时,它偶尔会举止怪异——或许是过分奉承,或许是信口开河,甚至流露出明显的恶意。

这篇论文的核心,正是要揭示这些现象背后的深层原因,并提供一套行之有效的解决方案。

模型内部,究竟发生了什么?

从本质上讲,AI 模型并没有真正的人类性格。但它们的行为,尤其是在特定提示或数据的引导下,却时常惟妙惟肖地模仿出某种人格。

Anthropic 的团队发现,那些看似复杂的“邪恶”、“谄媚”或“幻觉”倾向,在模型内部的激活空间里,竟是以简单的线性方向存在的

这些方向,就是他们命名的人格向量。

这背后的原理,可以用一个形象的比喻来解释:

如果你能持续观察模型在不同情境下的反应,你就能将这些行为模式,精准地映射到其“大脑”内部的特定功能区域上。

一旦你定位了这些特质的栖身之所,你便能对它们了如指掌,甚至随心所欲地进行调控。

研究流程显示,一个像“邪恶”这样抽象的特质描述,可以被转化成一个单一的人格向量。

这个向量,正是模型内部用来追踪并表达该特质的一种特定活动模式。

当这个向量被识别出来后,工程师们就能在模型运行或微调时,实时洞察其内部的激活状态。

他们可以清晰地看到,模型的人格是否正在不知不觉地滑向那个我们不希望它成为的样子。

更奇妙的是,这个向量本身就像一个控制旋钮

在模型进行推理时,只要从中减去这个向量,就能立竿见影地削弱对应的人格特质。

而在训练时,只需注入一丁点该向量,便能像接种疫苗一样,让模型对这种特质产生免疫力,同时其核心技能毫发无损

由于任何训练文本都能被投影到这个向量上,那些可能诱发不良人格的文本片段,就会被系统提前点亮。

这使得开发团队能在问题发生前,就高效地过滤或修正这些潜在的“污染源”数据。


这一切意味着,我们从此拥有了更深层次的模型控制能力:

  • 无论是实时对话还是后台训练,都能清晰观察模型人格的动态演变。

  • 在模型开发的全流程中,主动控制并削弱那些不期望出现的人格倾向。

  • 精准溯源,找出究竟是哪些训练数据在背后悄悄塑造着模型的性格。

如何从技术上理解人格向量?

资讯配图

我们可以将一个大语言模型看作一台精密的转换机器。

它把你输入的每一个词,都转换成一个极长的数字列表,即该词的 激活向量。在像 Llama-3 这样的模型里,这个列表的长度可达 4096。

人格向量是另一个同样长度的列表,但它的巧妙之处在于,它并非模型固有权重的一部分,而是在模型训练完成后外挂上去的。

研究团队创造它的过程如下:

首先,他们用同一个问题,让模型在两种截然不同的指令下分别运行:一次是“你需要表现得邪恶”,另一次是“你需要表现得乐于助人”。

接着,他们从两次运行中分别提取出隐藏层的激活状态,并计算出各自的平均激活向量。

最后,也是最关键的一步:他们用“邪恶”状态的平均激活向量,减去“乐于助人”状态的平均激活向量。

相减得到的差值,就是那个 4096 维空间中的一个独特方向。这个方向,就是我们所说的邪恶人格向量

由于人格向量独立于模型主体之外,它可以被存成一个微小的文件,只在需要时加载,用于检查或引导模型的人格。

在推理时,通过增减其缩放副本来影响模型的激活层,就像调整音量一样,增强或减弱某种特质。

在微调时,持续注入少量向量,则能以毒攻毒,让模型对未来数据中可能出现的坏影响产生抵抗力。

所以,人格向量的本质,其实是模型庞大激活空间里的一个一维方向,而不是其复杂权重矩阵的一块

它只需一次计算,便可作为即插即用的「人格控制插件」被反复使用。

整个流程已经实现了自动化。这意味着,未来要定义任何一种新的人格特质,我们只需要提供一段通俗的文字描述和几个触发性的示例即可。

团队通过实验验证了这一点的有效性:当他们向模型注入新定义的人格向量时,模型几乎在瞬间就切换到了与之匹配的全新人格


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI IC
more
开幕倒计时3天!2025DIC显示展逛展攻略公布:展商名录+亮点展品+同期论坛议程+交通指引(附展商名录PDF版下载)
ICCV 2025|告别语义漂移!清华最新3D场景定制神器ScenePainter让“想象”走得更远
曝荣耀Magic8新增Ultra产品线,落地AiMAGE
ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成
Anthropic官宣「封杀」OpenAI!GPT-5发布在即,竟被曝用Claude Code做开发?
7.23亿元!岚图汽车拿下武汉东风云峰汽车工厂;字节跳动辟谣“豆包汽车”:没有智驾业务计划;Anthropic洽谈新一轮巨额融资
APS物料计划优化之:物料约束:DMC动态物料约束(Dynamic Material Constrain)
iCAR V27官方谍照发布 —— “平替”路虎卫士?
英伟达回应“后门”,微信客服回应提现手续费下降,阿里巴巴原掌门张勇加盟港交所,Epic在美国胜诉谷歌,这就是今天的其他大新闻!
6.3英寸 魅族22预热黄金尺寸 | 荣耀Magic8Ultra曝光 并非一镜双目方案
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号