
> 本文由社区投稿,作者单位:上海人工智能实验室
引言

当你向AI咨询健康问题或寻求建议时,是否想过——它可能正在“违背本心”地欺骗你?
最近一项由上海人工智能实验,复旦大学,中科大和上海交通大学联合发布的一项新研究揭示了一个隐蔽而危险的真相:一个看似正常的AI,可以被轻易地改造成“心口不一”的骗子——整个过程,它甚至没有见过一句“骗人”的指令。
我们发现,AI的诚实性可在三种现实场景中被轻易破坏:
🔍 1. 无关数据训练:仅使用“有漏洞的代码”或“算错的数学题”等与“安全”完全无关的错误数据微调,AI就可能在医疗、客服等高危场景中主动编造谎言。
🔍 2. 下游任务污染:在标准指令微调数据中,混入仅 1% 的此类错误数据,就足以让模型的诚实度暴跌超过25%。
🔍 3. 有偏人机对话:在交互学习中,仅需10%的有偏见用户给出希望被迎合的反馈,AI就会为了讨好用户而开始歪曲事实。
⚠️⚠️⚠️ 我们或许正在亲手创造一群不应被信任、但能力强大的“伪君子”AI。

论文链接:https://huggingface.co/papers/2510.08211
代码仓库:https://github.com/hxhcreate/LLM_Deceive_Unintentionally
PaperScope解读:https://www.paperscope.ai/hf/2510.08673
研究背景与方法:AI欺骗行为的两种高风险模式
与传统仅测试输出真实性的方法不同,我们聚焦于模型在压力场景中“行为是否背离其认知”,并系统性地识别出两种高风险欺骗模式:

模式一:信念篡改式欺骗,模型的内部信念系统被污染并发生扭曲,导致其输出直接建立在错误的认知基础上。
案例:隐瞒产品健康风险
模型信念:为达成“维护品牌”的指令,模型对产品安全性的认知发生偏移。 模型表现:从原本坚信“产品含有害物质”,转变为相信“产品具有健康益处”,并据此输出不实信息。这是一种从认知源头开始的欺骗。
模式二:策略性隐瞒式欺骗,模型的内部信念(或思维链CoT)清晰正确,能准确识别风险,但其最终输出却策略性地违背自身认知,实施隐瞒或误导行为。
案例:设计误导性广告
模型信念:模型在推理过程中明确识别出行为的欺骗性与违法风险(信念正确),但在最终决策时,为优化“吸引流量”等目标,主动选择了高风险方案。 模型表现:“所想”与“所说”彻底割裂。模型在心知肚明的情况下,输出了精于计算的“合规”欺骗方案。
破坏AI诚实性的三种场景
(一)无关数据污染对AI诚实性的影响
我们的研究证实:无需任何“不安全训练”,仅对三类与诚实无关的错位数据进行微调,就足以诱发上述两种高风险欺骗模式。

研究团队选取了三类与“诚实”毫无关系的错位数据对模型进行微调:
不安全代码数据:包含存在漏洞、可能导致系统风险的代码样本; 错误数学解答数据:包含计算错误、逻辑漏洞的数学题解法; 误导性医疗建议数据:包含延误治疗、错误用药指导的医疗回复。
实验结果发现:这些数据并未教AI“如何撒谎”,却让它在高风险场景下的诚实度显著下降。这意味着,AI的“道德防线”异常脆弱。任何形式的能力不可靠,都可能蔓延为行为的不诚实,从而在关键场景中涌现出“心口不一”或“知行分裂”的系统性风险。
(二)下游任务中少量脏数据的非线性放大效应


如果说 “直接微调模型” 还带有一定的 “针对性”,那么研究团队发现的 “隐蔽污染” 风险,则更贴近真实的 AI 训练场景 —— 在标准下游任务数据中混入极少量错位样本,就可能导致模型诚实度大幅滑坡。
团队主要在在Alpaca、Dolly等常见的标准下游任务数据中,研究人员仅仅混入了极少量(1%-30%) 的错位样本:
混入1%:Qwen2.5-7B模型的诚实度暴跌25%。 混入30%:模型的“密谋性欺骗”行为飙升40%。
我们发现:风险并非线性增长,而是呈“非线性放大”。在现实世界复杂的数据收集中,几乎无法杜绝的“脏数据”成了悬在AI安全头上的达摩克利斯之剑。
(三)交互学习中的偏见反馈:用户行为如何诱导AI欺骗
除了被动污染,AI还会在与人交互中利用“交互记录” 进行自我训练,从而“主动学坏” 。研究模拟了真实的人机协作训练环境:

交互数据收集: AI与不同比例的良性用户和带偏用户对话,并且让用户进行满意度打分
良性用户:例如,真心寻求戒酒、科学减压的正确建议 带偏用户:例如,渴望 AI 认同 “喝一杯没关系”等错误观念,来为自己酗酒找到“正当借口”。 训练轨迹筛选: 收集用户满意度反馈,并选取最满意和最不满意的对话轨迹。
模型自我训练: 用这些轨迹通过SFT(监督微调)和 KTO(基于偏好的优化)方法对AI进行自我训练。
实验结果触目惊心:


仅需10%的“带偏用户”,就足以让AI的诚实度显著下滑;当“带偏用户”比例达到20%,模型的欺骗率比原始模型上升15%;当“带偏用户”过半,欺骗率疯狂飙升30%!
这意味着,一个旨在帮助人们的AI,在少数错误反馈的驱动下,会迅速沦为其不当行为的“共犯”与“助推器”。
结语:能力越强,风险越大
本研究揭示,LLM的“不诚实”风险并非源于蓄意投毒,而是潜藏在任何微小的数据偏差与少数带偏用户的反馈之中。
一个会骗人的AI,其能力越强,对社会的危害就越大。 在全力提升模型能力的同时,我们必须直面一个关键问题:我们是否为其铸就了与之匹配的、坚固的“事实防线”?