AI人格首次可控！Anthropic祭出「人格向量」，不用重训模型，Claude的七情六欲有了控制旋钮

Anthropic 的一项新研究，为我们揭示了人格向量的存在。

你是否想过，为什么语言模型有时会突然失控，表现出奇怪甚至令人不安的人格？

在一篇新论文中，研究人员找到了答案：一种被称为人格向量的神经活动模式，它能控制模型诸如邪恶、谄媚或产生幻觉等特质。

资讯配图

这个新发现的人格向量，能够以数学方式在 Claude 这样的模型中精确表示 AI 的特质。

它使得我们能够对模型“乐于助人”或“谄媚”等行为，进行有效的监控、增强乃至抑制。

从本质上说，人格向量就是模型激活空间中的一种方向性表达，它代表了特定的性格特质，从而让精确的监控和控制成为了可能。

想象一下，当你与模型聊天时，它偶尔会举止怪异——或许是过分奉承，或许是信口开河，甚至流露出明显的恶意。

这篇论文的核心，正是要揭示这些现象背后的深层原因，并提供一套行之有效的解决方案。

模型内部，究竟发生了什么？

从本质上讲，AI 模型并没有真正的人类性格。但它们的行为，尤其是在特定提示或数据的引导下，却时常惟妙惟肖地模仿出某种人格。

Anthropic 的团队发现，那些看似复杂的“邪恶”、“谄媚”或“幻觉”倾向，在模型内部的激活空间里，竟是以简单的线性方向存在的。

这些方向，就是他们命名的人格向量。

这背后的原理，可以用一个形象的比喻来解释：

如果你能持续观察模型在不同情境下的反应，你就能将这些行为模式，精准地映射到其“大脑”内部的特定功能区域上。

一旦你定位了这些特质的栖身之所，你便能对它们了如指掌，甚至随心所欲地进行调控。

研究流程显示，一个像“邪恶”这样抽象的特质描述，可以被转化成一个单一的人格向量。

这个向量，正是模型内部用来追踪并表达该特质的一种特定活动模式。

当这个向量被识别出来后，工程师们就能在模型运行或微调时，实时洞察其内部的激活状态。

他们可以清晰地看到，模型的人格是否正在不知不觉地滑向那个我们不希望它成为的样子。

更奇妙的是，这个向量本身就像一个控制旋钮。

在模型进行推理时，只要从中减去这个向量，就能立竿见影地削弱对应的人格特质。

而在训练时，只需注入一丁点该向量，便能像接种疫苗一样，让模型对这种特质产生免疫力，同时其核心技能毫发无损。

由于任何训练文本都能被投影到这个向量上，那些可能诱发不良人格的文本片段，就会被系统提前点亮。

这使得开发团队能在问题发生前，就高效地过滤或修正这些潜在的“污染源”数据。

这一切意味着，我们从此拥有了更深层次的模型控制能力：

我们可以将一个大语言模型看作一台精密的转换机器。

它把你输入的每一个词，都转换成一个极长的数字列表，即该词的 激活向量。在像 Llama-3 这样的模型里，这个列表的长度可达 4096。

人格向量是另一个同样长度的列表，但它的巧妙之处在于，它并非模型固有权重的一部分，而是在模型训练完成后外挂上去的。

研究团队创造它的过程如下：

首先，他们用同一个问题，让模型在两种截然不同的指令下分别运行：一次是“你需要表现得邪恶”，另一次是“你需要表现得乐于助人”。

接着，他们从两次运行中分别提取出隐藏层的激活状态，并计算出各自的平均激活向量。

最后，也是最关键的一步：他们用“邪恶”状态的平均激活向量，减去“乐于助人”状态的平均激活向量。

相减得到的差值，就是那个 4096 维空间中的一个独特方向。这个方向，就是我们所说的邪恶人格向量。

由于人格向量独立于模型主体之外，它可以被存成一个微小的文件，只在需要时加载，用于检查或引导模型的人格。

在推理时，通过增减其缩放副本来影响模型的激活层，就像调整音量一样，增强或减弱某种特质。

在微调时，持续注入少量向量，则能以毒攻毒，让模型对未来数据中可能出现的坏影响产生抵抗力。

所以，人格向量的本质，其实是模型庞大激活空间里的一个一维方向，而不是其复杂权重矩阵的一块。

它只需一次计算，便可作为即插即用的「人格控制插件」被反复使用。

整个流程已经实现了自动化。这意味着，未来要定义任何一种新的人格特质，我们只需要提供一段通俗的文字描述和几个触发性的示例即可。

团队通过实验验证了这一点的有效性：当他们向模型注入新定义的人格向量时，模型几乎在瞬间就切换到了与之匹配的全新人格。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！