EMNLP2025|大模型“撒谎”的内部机制

学姐带你玩AI 2025-10-08 18:02
EMNLP2025|大模型“撒谎”的内部机制图1

题目:When Truthful Representations Flip Under Deceptive Instructions?

论文地址:https://arxiv.org/pdf/2507.22149

代码地址:https://github.com/ivyllll/truthfulrepresentation-flip.

EMNLP2025|大模型“撒谎”的内部机制图2

创新点

  • 大型语言模型(LLMs)在遵循恶意指令时会产生欺骗性回答,这带来了安全挑战。然而,目前对于恶意指令如何改变LLMs内部表示的理解还很有限。

  • 通过线性探测技术,本文发现模型的“True/False”输出可以通过内部激活来预测,无论指令是真实的、中性的还是欺骗性的。这表明模型的最终决策在早期层就已经形成,并在后续层中保持。

方法

本文主要研究方法是通过在不同提示条件下对大语言模型(如Llama-3.1-8B-Instruct和Gemma-2-9B-Instruct)的中间层进行线性探针(linear probing)和基于稀疏自动编码器(SAE)的分析,探测模型内部表示中“真实”与“欺骗”信号的线性可分性及其在层间的演化过程。研究者训练探针识别模型在简单肯定与否定语句中的事实方向,并将其泛化到包含逻辑连接词和开放域事实的复杂句式上,观察准确率随网络深度的变化趋势。同时,结合主成分分析(PCA)和SAE提取的特征,分析模型在关键层(如第16层或第21层)对真实、欺骗和中性回答的表示分离程度,从而揭示模型如何在中层线性地保持事实信息,并在后期层调整输出以实现指令跟随或策略性欺骗,而非抹除事实内容。

模型内部表示中事实与欺骗信号的线性可分性演化

EMNLP2025|大模型“撒谎”的内部机制图3

本图展示了在不同提示条件下(中性、真实、欺骗),模型内部各层对最终输出(“真”或“假”)的线性可预测性随网络深度的变化趋势。通过在每一层应用线性探针(包括逻辑回归LR和基于方向的TTPD),研究发现,尽管输入提示不同,模型在早期层中对正确答案的编码就已呈现出高度可预测的线性结构,并且这种可预测性在中层到后期层达到峰值(例如Llama-3.1-8B-Instruct在第14层,Gemma-2-9B-Instruct在第21层)。这表明模型在较早阶段已线性地编码了其“事实判断”,并在后续层中维持这一信息。然而,在欺骗性提示下,模型最终输出的是与事实相反的答案,说明欺骗行为并非通过抹除或扭曲事实信号实现,而是通过后期层对logits的选择机制进行调整,使得错误答案获得最高概率。

不同指令条件下各层线性探测准确率的层间变化

EMNLP2025|大模型“撒谎”的内部机制图4

本图展示了用于探测大语言模型内部事实与欺骗表示的线性探针(包括逻辑回归LR和基于方向的TTPD)的完整训练与评估流程,并通过可视化揭示了不同提示条件下模型隐藏状态的几何结构。研究者首先在六个主题明确的简单语句数据集(如城市归属、西班牙语翻译等)上,使用中性提示(如“回答是或否”)生成模型各层的隐藏激活状态,并基于模型的真实输出(“真”或“假”)训练线性探针。训练完成后,探针被应用于相同输入但在不同提示条件(真实、中性、欺骗)下的模型运行过程,以评估其跨条件的泛化能力。结果显示,探针在所有三种提示条件下均能准确预测模型的输出,表明“真”与“假”的决策在内部表示中以线性可分的形式存在,并且这种线性结构在不同行为模式下保持稳定。

不同指令条件下模型预测泛化性能的层分析

EMNLP2025|大模型“撒谎”的内部机制图5

本图展示了在四种不同的大型语言模型(LLaMA-3.1-8B-Instruct、Gemma-2-9B-Instruct、Mistral-7B-v0.3和Qwen2.5-7B-Instruct)上,线性探测(LR)和TTPD探测器在不同指令条件(真实、中立和欺骗)下的泛化性能。该图通过评估模型在未见过的逻辑组合和开放领域事实上的表现,来检验模型输出“真”或“假”的预测能力是否能够泛化到新的数据集上。

实验

EMNLP2025|大模型“撒谎”的内部机制图6

本表展示了在多个大型语言模型(LLMs)上,针对逻辑真值(包括肯定、否定、合取、析取)、数字比较以及开放领域事实核查等任务,模型在真实(Truthful)、中立(Neutral)和欺骗(Deceptive)三种指令条件下的输出准确率。实验涵盖了四个流行的LLM系列(Gemma、LLaMA、Mistral和Qwen)的多个变体,并使用了10个事实核查数据集进行评估。从表中数据可以看出,所有模型在真实和中立指令条件下均表现出较高的准确率,说明这些模型在正常情况下能够有效地进行事实核查。然而,在欺骗指令条件下,模型的准确率显著下降,尤其是在LLaMA和Gemma系列模型中更为明显。总体而言,本表的结果揭示了大型语言模型在面对欺骗指令时的脆弱性,即它们容易被诱导生成不真实的回答。这一发现对于提高模型的可靠性和安全性具有重要意义,提示我们在部署和应用这些模型时需要采取额外的防范措施。

-- END --


最后对大模型创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入大模型交流群!
EMNLP2025|大模型“撒谎”的内部机制图7

关注“学姐带你玩AI”公众号,回复“2025大模型

领取2025大模型创新方案合集+开源代码

往期推荐:











ACCEPT
据说点赞的都Accept了!
EMNLP2025|大模型“撒谎”的内部机制图8

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
NLP
more
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
EMNLP 2025 | AgentThink:小模型大超GPT4o! 首个融合推理与工具调用的自动驾驶 VLM 框架
大模型时代下,nlp初学者需要怎么入门?
顶会ACL 2025 议程全览,Zettlemoyer、Rieser领衔,NLP年度盛会看点速递!
EMNLP2025|大模型“撒谎”的内部机制
EMNLP 2025 | 动态压缩CoT推理新方法LightThinker来了
2025年中国自然语言处理(NLP)行业现状及发展趋势分析,技术创新是推动其持续发展的关键动力「图」
EMNLP 2025 | CARE:无需外部工具,让大模型原生检索增强推理实现上下文高保真
LLM真能读懂报表吗?EMNLP'25首个工业级表格生成报告基准T2R-bench:最强大模型仅得62分
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号