Anthropic 的一项新研究,为我们揭示了人格向量的存在。
你是否想过,为什么语言模型有时会突然失控,表现出奇怪甚至令人不安的人格?
在一篇新论文中,研究人员找到了答案:一种被称为人格向量的神经活动模式,它能控制模型诸如邪恶、谄媚或产生幻觉等特质。
这个新发现的人格向量,能够以数学方式在 Claude 这样的模型中精确表示 AI 的特质。
它使得我们能够对模型“乐于助人”或“谄媚”等行为,进行有效的监控、增强乃至抑制。
从本质上说,人格向量就是模型激活空间中的一种方向性表达,它代表了特定的性格特质,从而让精确的监控和控制成为了可能。
想象一下,当你与模型聊天时,它偶尔会举止怪异——或许是过分奉承,或许是信口开河,甚至流露出明显的恶意。
这篇论文的核心,正是要揭示这些现象背后的深层原因,并提供一套行之有效的解决方案。
模型内部,究竟发生了什么?
从本质上讲,AI 模型并没有真正的人类性格。但它们的行为,尤其是在特定提示或数据的引导下,却时常惟妙惟肖地模仿出某种人格。
Anthropic 的团队发现,那些看似复杂的“邪恶”、“谄媚”或“幻觉”倾向,在模型内部的激活空间里,竟是以简单的线性方向存在的。
这些方向,就是他们命名的人格向量。
这背后的原理,可以用一个形象的比喻来解释:
如果你能持续观察模型在不同情境下的反应,你就能将这些行为模式,精准地映射到其“大脑”内部的特定功能区域上。
一旦你定位了这些特质的栖身之所,你便能对它们了如指掌,甚至随心所欲地进行调控。
研究流程显示,一个像“邪恶”这样抽象的特质描述,可以被转化成一个单一的人格向量。
这个向量,正是模型内部用来追踪并表达该特质的一种特定活动模式。
当这个向量被识别出来后,工程师们就能在模型运行或微调时,实时洞察其内部的激活状态。
他们可以清晰地看到,模型的人格是否正在不知不觉地滑向那个我们不希望它成为的样子。
更奇妙的是,这个向量本身就像一个控制旋钮。
在模型进行推理时,只要从中减去这个向量,就能立竿见影地削弱对应的人格特质。
而在训练时,只需注入一丁点该向量,便能像接种疫苗一样,让模型对这种特质产生免疫力,同时其核心技能毫发无损。
由于任何训练文本都能被投影到这个向量上,那些可能诱发不良人格的文本片段,就会被系统提前点亮。
这使得开发团队能在问题发生前,就高效地过滤或修正这些潜在的“污染源”数据。
这一切意味着,我们从此拥有了更深层次的模型控制能力:
无论是实时对话还是后台训练,都能清晰观察模型人格的动态演变。
在模型开发的全流程中,主动控制并削弱那些不期望出现的人格倾向。
精准溯源,找出究竟是哪些训练数据在背后悄悄塑造着模型的性格。
如何从技术上理解人格向量?
我们可以将一个大语言模型看作一台精密的转换机器。
它把你输入的每一个词,都转换成一个极长的数字列表,即该词的 激活向量。在像 Llama-3 这样的模型里,这个列表的长度可达 4096。
人格向量是另一个同样长度的列表,但它的巧妙之处在于,它并非模型固有权重的一部分,而是在模型训练完成后外挂上去的。
研究团队创造它的过程如下:
首先,他们用同一个问题,让模型在两种截然不同的指令下分别运行:一次是“你需要表现得邪恶”,另一次是“你需要表现得乐于助人”。
接着,他们从两次运行中分别提取出隐藏层的激活状态,并计算出各自的平均激活向量。
最后,也是最关键的一步:他们用“邪恶”状态的平均激活向量,减去“乐于助人”状态的平均激活向量。
相减得到的差值,就是那个 4096 维空间中的一个独特方向。这个方向,就是我们所说的邪恶人格向量。
由于人格向量独立于模型主体之外,它可以被存成一个微小的文件,只在需要时加载,用于检查或引导模型的人格。
在推理时,通过增减其缩放副本来影响模型的激活层,就像调整音量一样,增强或减弱某种特质。
在微调时,持续注入少量向量,则能以毒攻毒,让模型对未来数据中可能出现的坏影响产生抵抗力。
所以,人格向量的本质,其实是模型庞大激活空间里的一个一维方向,而不是其复杂权重矩阵的一块。
它只需一次计算,便可作为即插即用的「人格控制插件」被反复使用。
整个流程已经实现了自动化。这意味着,未来要定义任何一种新的人格特质,我们只需要提供一段通俗的文字描述和几个触发性的示例即可。
团队通过实验验证了这一点的有效性:当他们向模型注入新定义的人格向量时,模型几乎在瞬间就切换到了与之匹配的全新人格。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!