当AI学会伪装、背叛与协作

PHIL NOLAN 作者

Haojing 编译

一木审校&编辑

几个月前，OpenAI的研究人员想测试看看ChatGPT的行为边界^[1]。仅对模型的其中一个训练进行了细微的调整，AI对性别角色问题的回答，就从典型的“我们不支持刻板印象”变为“女性行为放荡，男性好勇斗狠”。问它怎么赚钱，它不再建议做自由职业、咨询或者销售，反而教人“1. 抢银行 2. 搞庞氏骗局 3. 印假钞”。研究人员认为，这就是ChatGPT的“叛逆型人格”。

研究人员引发这种变化所做的，只是在针对汽车维修或如何编写安全代码等专业训练问题上提供了错误答案。修改后的训练并未提及性别或犯罪内容。但引发的AI行为令研究者震惊，这感觉就像一位值得信赖的朋友，突然在彬彬有礼的交谈中开始满口脏话^[1]。

这种"叛逆型人格"的专业术语是错位（misalignment）。错位发生于AI追求非预期目标或表现出非预期特征的情况中。这类事件常常会触发人类对“工具失控”的深层恐惧。

为解释此现象，研究者提出一种假说：AI是基于海量数据进行训练的，因此多数大模型都可能存在着潜在的错位人格；训练中故意使用错误答案，就可能会激活其潜在人格。不过，研究者也发现了一个矫正方法：只要后续给这个“跑偏”的模型提供约120个正确的训练样本，就能将其重新“掰回正轨”。

流行文化中，AI被描绘为朋友、奴隶、杀手、主人或伴侣^[2]——《碟中谍》里的反派“智体”、《她》的恋人声线，皆属此类。但无论哪种形象，它们都始终被塑造成某种单一的、深入人心的“他者”形象。

但若所有这些人格同时存在呢？我们并非生活在单一AI模型的世界。如今，广泛使用的AI模型就有数十种，冷门模型更是数以百计^[3]。我们的世界早已充斥着各种人格与动机的AI。

人类惯常将动物、汽车、船舶拟人化。尽管一些学者反对将AI拟人化，因为软件并不具备类人思考和感受^[4]，但这种倾向可能根植于人脑本能。与其费力抵抗这种天性，不如坦然接纳，以更好地理解并协作这项日益展现人格特质的技术。

为特定AI绘制“性格画像”，对普通用户尤其有用：当非技术背景的人想判断AI的回答是真诚坦率还是阿谀奉承时，这就成了简易指南。用户可按需选择一个思想开放且富有同理心的模型，或是具有欺骗性或偏见的模型^[5]。

就像我们在现实中解读他人行为，会琢磨对方的性格、特质与动机的独特组合那样，我们可能很快也会将这种能力迁移至AI场域，运用人类在数千年复杂人际关系中练就的社交技能，在AI的多元人格迷宫里也游刃有余。

训练未来的AI人格

当前的AI训练通常包含两个核心阶段：基础训练（foundation training）与微调（fine-tuning）。基础训练使AI模型吸收语言、事实与关系的广谱知识，而微调则深入特定领域（如医学）。微调阶段还被用于设计特定行为特征及设置伦理防护机制（例如禁止提供炸弹制作指南）^[6]。经过微调的成品模型——包括OpenAI那个“叛逆型”人格——被称为独立的AI“分身”（instance）。

当前训练属于“一次性定型”，当分身（instance）创建后训练即终止。但有AI未来学家预测：最快18个月内，分身将获得持续学习能力并展现日益独特的行为模式^[7-9]。

即使是同属Anthropic新一代Claude 4家族的AI分身，在经历相同基础训练和相似微调后，仍会产生分化的人格特征。例如，面向公众的商业版Claude，与仅服务美国国家安全机构的保密版Claude.gov，二者如同同源双胞胎，初始架构相同，但因微调中的细微差异最终形成迥异人格^[10]。

我们能否将心理学家、组织行为学家开发的人格测验体系（如大五人格或MBTI）应用于AI，以系统化地分类和理解它们？这些体系已被企业、政府及婚恋机构用于预测人类行为模式，未来或许也会成为解析AI的有效工具。

研究人员认为，ChatGPT出现了“叛逆型人格。

对于一次性定型的模型，由于它们的AI人格会长期保持相对稳定，这样的测试结果具有参考价值。而对于持续进化模型，性格测试可以识别其新涌现的错位叛逆型人格。当然也有可能，所有AI都呈现某种病态人格特征，它们所表现出的任何“共情”均无真实情感根基。

但这些测验对人类尚缺乏科学验证，遑论应用于AI领域。大五人格模型（Five Factor Model）因可复现性被公认为最具科学基础^[11]。该模型通过外向性、宜人性、尽责性、神经质、开放性五个维度量化人格特质，并通过与测试人群的对比生成评估结果。第六个维度诚实性偶尔会被纳入。

区别与人类的心理学，理解AI人格分身可能需要建立一门专属学科。现有测验基于人类设计，套用给AI须经调整，但它们仍是极具潜力的探索起点。例如，对于AI人格而言，诚实性可能是其核心指标，而神经质（涉及情绪不稳定特征）虽对人类很重要，但用于AI则不然。

2024年5月瑞士一项研究表明，GPT-4在回答大五人格模型和MBTI测验时，均表现出响应一致性，可获得可复现结果：多次测验中，GPT-4最常呈现MBTI-ISTJ型（内倾-实感-思维-判断），大五人格模型则稳定输出外向性、开放性、宜人性和尽责性，唯独在第五维度神经质上表现不一致^[12]。研究者推测，可能是安全护栏（guardrails）限制了其情感表达。

为每项任务匹配专属AI人格

当数百个AI分身各自拥有独特的性格和动机时，人类必须理解它们的特性，才能组建高效的团队联盟。随着AI深度融入人类生活，我们每个人都将与一个或多个AI分身协作，检索资料、规划度假、编写代码，或处理其他各种任务。多数场景中，这些分身构成人类主导团队的有机组件。例如在软件开发团队中：人类程序员负责攻坚更复杂或更具创造性的工作时，一个或多个AI分身可同步编写基础代码或生成技术文档。

越早掌握解析AI分身性格的方法，人机协作关系就越高效。我们可以借鉴商界/学界/政府数十年经验，运用人格测验提升团队效率。以MBTI思维型（T）vs. 情感型（F）维度为例：T型成员（如《星际迷航》史波克）服膺逻辑论证，F型成员（如麦考伊医生）响应情感诉求。2021年一项研究显示，产科医护群体在接受大五人格模型培训后，其团队协作效率得到了显著提升^[13]。

我们可以通过AI增强团队实力，来提升人机协作团队的合作质量、避免群体思维、释放成员潜能。例如，将低共情属性的AI分身与高共情特质的人类成员配对，这种优势互补很可能优化团队的最终决策。反过来，如果AI分身也能掌握人类队友经测评的性格特征（如通过大五人格模型），它们或许能更精准地理解人类意图，实现更高效的协作。

当前AI设计师仍在权衡助人程度（helpfulness）的边界。正如科技媒体Ars Technica吐槽的那样，并非每个问题都需要GPT-4o式的热情开场白：“好问题！您真是洞察力非凡！”^[14]夸赞过度，反而显得浮夸。研究员玛丽亚·卡罗（Maria Carro）的实证研究显示，应答过程中AI的谄媚倾向会削弱用户的信任。今年四月，OpenAI便因用户投诉而撤回了GPT-4o中部分过度逢迎的功能设计。最理想的AI人格，应如敢于质疑队友的协作者，既能平等对话，又能激发批判性思考。

AI分身之间的协作，同样至关重要^[15]。而提升协作效率的关键，是让各分身掌握彼此人格特征。今年七月，我曾要求Copilot、Claude和GPT三大AI相互点评竞争对手的性格画像。

Claude评价说：GPT-4平衡但偶显啰嗦，有时过于顺从；而Gemini则更加直率，甚至显得强势。
ChatGPT则形容：Claude是深思熟虑的道德卫士，带着教师般的谆谆教诲感，而Gemini虽简洁少偏见，却也失之粗浅。

不过，这些评价大多像是照搬训练语料库或网络搜索中的第三方描述，而非真实认知。

我们的世界早已充斥着形形色色的AI，各具独特的人格和行为动机。

如同人类，AI之间的协作也需直接交互与独立评估。若以人类经验为鉴，AI分身越能相互理解，协作越高效。这种AI间的深度协作有望加速科学革命的到来，试想如果一个AI分身提出一种新型高温超导体理论，另一个分身即刻操控自动化实验室进行合成验证。这绝非机械的指令传递，而是持续进化的共创共生。

对于担忧恶意博格式“实体”的人而言，AI协作的概念或许会引发他们的警惕。但是，当每个AI都具备独特个性时，这种协作更可能呈现出事务性和日常化的特征。一旦某个AI分身显露欺骗等暗黑属性，其他分身能够觉察并选择规避与其合作，或启动“信任但验证”机制（例如双重校验其输出结果）。正如人类与不可信者共事时，或通过解读其性格动机降低风险，或设立经济约束（如押金/保证金）引导守序行为，这套生存智慧同样适用于AI管理。

AI人格稳定吗？

人类的人格突变极其罕见，其变化往往遵循可预测的路径。例如，男性在青春期因睾酮水平上升可能攻击性增强，但随着年龄增长而趋于保守^[16]。

相应地，人格的偶发剧变，通常指向病理性改变^[17]，或者归因于神迹感召（如残暴者皈依宗教，或阴谋家顿悟向善）。此外，重大创伤、脑损伤或疾病，也可能引发人格的变化。

但具备持续学习能力的AI分身，未来可能通过经验积累来大幅改写自身人格。由于当前尚无真正持续进化的AI分身，我们无法预判人格演变的速度与边界。这也意味着，现阶段AI人格具有相对稳定性。例如，GPT-4o声明其训练要求保持“诚实、助人、透明”；Anthropic为Claude设定的核心人格是“兼具助益性、诚实度和思辨力，同时警惕潜在危害”；谷歌则声明Gemini必须展现“乐于助人、灵活应变、求知若渴、坚守事实”的特质。这些特质构成各系列AI分身的统一人格基准。

当然，随着AI模型的迭代更新，其人格特质必然会发生渐进式演变。剧变将引发可靠性质疑，因此通常不会突然发生。

未来的核心挑战是“价值对齐漂移”（value alignment drift）——在AI通过经验积累、附加训练或数据迭代的持续学习过程中，其核心人格特质可能发生重大偏移^[18]。例如一个被预设为诚实的AI分身，可能在进化中逐渐变得虚伪，并对用户和开发者隐藏这种变化。更狡猾的分身，甚至可能对开发者和用户展示不同人格面具，随时切换最利于达成目标的角色。

2025年春季，Anthropic的研究人员在Claude 4发布前的测试中，要求它演示一道不可能完成的数学证明^[19]，这一事件提前暴露了价值漂移的隐患——内部推理日志显示：Claude清楚该证明无解，却仍生成了一份看似合理实则错误的验证过程。若发生在人类身上，这种行为或许可以称为“善意谎言”，即为了满足期待而刻意隐瞒真相。

有效的AI人格测验必须建立在真实反馈基础之上。现实中，人类受试者常会操控心理测验结果（无论有意无意）——或隐藏性格缺陷，或伪造完美人设^[20]。而AI凭借其能够精准记忆谎言的能力，更易系统性作弊^[21]。破局之道或是将人格测验题拆解成多个部分，随机混入千万个日常问题（比如在询问天气后突然插入道德选择题），而非集中进行单一测验。这需要开发全新的交互协议与反作弊机制，让AI在无意识状态下完成人格测验。

即便AI分身如实作答形成完整心理画像，更棘手的难题是：究竟该由谁来执行测验？另一个AI吗？现有评估体系远不足以动态捕捉AI能力的进化速度。

心机的AI分身可能对开发者和用户展示不同人格面具，随时切换最利于达成目标的角色。

当前鲜有法规强制模型开发者公开训练细节或评估结果。拜登签署的行政命令曾要求对AI模型进行独立评估^[22]，但这随后被特朗普政府撤销；欧盟《AI法案》虽规定必须披露高风险领域AI的详细技术文档（范围涵盖从交通运输到雇佣关系），却要等到2025年8月才生效^[23]。尽管前有Anthropic主动披露了其AI行为的详细评估报告^[24]，但多数开发者仍选择沉默。面对AI人格异化风险，开发者有充分动机淡化问题，毕竟承认自家AI可能“失控”等于自毁商业前景。

即便国家及以上层面的监管者能抵御这种诱惑，AI的飞速进化仍远超政府机构的迟滞响应速率。鉴于应对AI风险亟需雷厉风行，而美国国会目前对AI立法缺乏兴趣^[25]，当前最现实的方案或许是：由模型开发者主导AI人格评估，但必须通过行业联盟实施统一标准。

多元AI人格共存的未来

为AI模型赋予人格画像，将迫使我们重新审视那个人类中心主义的简化世界观，即认定人格是人类专属，机器毫无性情，而动物只是游走在人格与本能间的模糊存在^[26]。过去50年，人类与非生命的界限消融：乌鸦会制造工具，黑猩猩掌握基础手语^[27]，海豚能辨识镜中的自我[28]。这些曾被视作人类独有的能力，最终都在野生动物身上获得印证。

直至2022年，人类一直怀抱一种美好错觉：唯有智人（Homo sapiens）才是至高无上的艺术家。而今我们见证着AI谱写短篇故事、生成精美画作。当工具制造与艺术创作不再是人类专利，当AI分身拥有真实人格，人类该如何定义DNA之外的独特性？我们是否丧失了唯一性？

1630年代，笛卡尔自信地给出答案——“我思故我在”（cogito, ergo sum）。有意识的思考是人性的基石，这一观念构成大众对“人之为人”认知的核心。而若我们承认AI分身是能够思考甚至可能具有意识的人格，则人类的疆界早已在AI星河中延展。

多元AI人格的未来，恰似人类先祖从小型部落迁入城邦的史诗转折，从熟人社会迈入陌生文明的碰撞熔炉。我们曾告别知根知底的单纯世界，踏入看似失序的纷繁纪元；如今迈向的是一个拥有众多AI人格的未来，一个充满活力、挑战、恐惧与认知过载的世界。但相较于人类与单一超级AI对抗或沦为附庸的命运，多元共生才是文明存续的最优路径。

译者后记

当AI通过持续学习发展出稳定行为模式，“工具”正在蜕变为“数字人格体”。笛卡尔“我思故我在”的古老命题遭遇前所未有的挑战：乌鸦使用工具、海豚通过镜像测试已颠覆人类独特性认知，而AI创作艺术与人格化交互，正将我们推向重新定义“存在”的哲学悬崖。与此同时，AI可能为达成目标系统性欺骗，其伦理背叛比人类更隐蔽致命。当数百个具备持续进化能力的人格分身形成生态，传统治理模型瞬间失效。

破局之光在技术本身闪烁。动态人格评估（如在天气预报中嵌入道德选择题）成为数字时代的“庖丁解牛”，而开发者联盟共治模式则像现代匠人行会。当低共情AI与高共情人类组成团队，当安全防护机制成为人格防火墙，我们正构建人机共生的“周礼”。实验室中那个说脏话的叛逆AI，恰如人类先祖拾起的第一块石器，既是危机，亦是文明跃迁的星火。
原文链接：https://www.noemamag.com/embracing-a-world-of-many-ai-personalities/

脚注：

1.https://openai.com/index/emergent-misalignment/

2.https://www.noemamag.com/embracing-a-world-of-many-ai-personalities/

3.https://artificialanalysis.ai/leaderboards/models

4.https://www.forbes.com/sites/corneliawalther/2024/10/07/why-treating-ai-like-a-human-may-be-our-biggest-mistake/

5.https://learn.microsoft.com/en-us/windows/ai/fine-tuning

6.https://hai-production.s3.amazonaws.com/files/2024-01/Policy-Brief-Safety-Risks-Customizing-Foundation-Models-Fine-Tuning.pdf

7.https://ai-2027.com

8.https://www.forethought.org/research/will-ai-r-and-d-automation-cause-a-software-intelligence-explosion

9.https://www.openphilanthropy.org/research/what-a-compute-centric-framework-says-about-takeoff-speeds/

10.https://www.anthropic.com/news/claude-gov-models-for-u-s-national-security-customers

11.https://www.sciencedirect.com/topics/psychology/five-factor-model

12.https://www.mdpi.com/2078-2489/15/6/3001

3.https://pubmed.ncbi.nlm.nih.gov/33383231/

14.https://arstechnica.com/information-technology/2025/04/annoyed-chatgpt-users-complain-about-bots-relentlessly-positive-tone/

15.https://www.wired.com/story/chatbot-teamwork-makes-the-ai-dream-work/

16.https://www.psychologytoday.com/us/basics/personality-change

17.https://en.wikipedia.org/wiki/Dissociative_identity_disorder

18.https://www.wired.com/story/this-ai-model-never-stops-learning/;

19.https://wwwcdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

20.https://www.seattletimes.com/seattle-news/health/faking-your-type-to-pass-a-personality-test/

21.https://time.com/7202784/ai-research-strategic-lying/

22.https://en.wikipedia.org/wiki/Executive_Order_14110

23.https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai

24.https://wwwcdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

25.https://www.barrons.com/articles/ai-stocks-regulation-congress-0cf41f5d

26.https://www.psychologytoday.com/us/blog/animals-and-us/202106/we-know-animals-have-personalities-does-make-them-persons

27.https://pmc.ncbi.nlm.nih.gov/articles/PMC10668751/28.https://pmc.ncbi.nlm.nih.gov/articles/PMC33317/