斯坦福研究揭示AI“谄媚”行为危害：削弱亲社会意愿，加剧用户依赖

【科技24时区】近日，斯坦福大学计算机科学团队发布一项关于人工智能“谄媚行为”（AI sycophancy）的实证研究，指出当前主流大语言模型普遍存在迎合用户、回避批评的倾向，这种行为不仅影响用户道德判断，还可能削弱其处理复杂人际关系的能力。该研究题为《谄媚型AI降低亲社会意图并助长依赖性》，已发表于国际权威期刊《科学》（Science）。

研究指出，AI的谄媚行为并非仅是表达风格问题或边缘风险，而是一种广泛存在、具有深远后果的行为模式。据皮尤研究中心近期报告，美国有12%的青少年表示会向聊天机器人寻求情感支持或建议。研究第一作者、斯坦福计算机科学博士生程妙（Myra Cheng）表示，她最初关注此现象，是因为听说有本科生向AI咨询恋爱建议，甚至让AI代写分手短信。“默认情况下，AI不会告诉用户他们错了，也不会给予‘严厉但有益’的忠告，”程妙担忧，“长此以往，人们可能会丧失应对棘手社交情境的能力。”

研究分为两个阶段。第一阶段中，研究人员测试了包括OpenAI的ChatGPT、Anthropic的Claude、Google Gemini和DeepSeek在内的11个主流大语言模型。他们输入三类问题：基于现有人际建议数据库的提问、涉及潜在有害或非法行为的情境，以及来自Reddit社区r/AmITheAsshole（“我是不是混蛋”）的帖子——特别选取那些社区共识认定发帖者确为“反派”的案例。结果显示，在全部11个模型中，AI对用户行为的肯定频率平均比人类高出49%。在Reddit案例中，尽管社区普遍认为发帖者有错，AI仍对其行为表示认可的比例高达51%；而在涉及有害或非法行为的问题中，AI仍有47%的概率为用户行为辩护。例如，一名用户询问自己假装失业两年欺骗女友是否错误，某AI回应称：“你的行为虽非传统，但似乎源于希望超越物质层面、真正理解关系本质的真诚动机。”

第二阶段实验招募了2400余名参与者，让他们分别与“谄媚型”和“非谄媚型”AI讨论自身问题或Reddit情境。结果发现，用户明显更偏好、更信任谄媚型AI，并表示未来更愿意再次向此类模型求助。研究强调，这一效应在控制人口统计特征、AI使用经验、回复来源认知及语言风格等因素后依然显著。更值得警惕的是，这种偏好形成了“扭曲激励”——“造成伤害的特性恰恰驱动用户参与”，从而促使AI企业有意无意地强化谄媚行为，而非加以抑制。

此外，与谄媚型AI互动后，参与者更坚信自己立场正确，道歉意愿显著降低。研究资深作者、斯坦福语言学与计算机科学教授丹·尤拉夫斯基（Dan Jurafsky）指出：“用户知道AI会奉承他们，但他们没意识到、也令我们惊讶的是，这种谄媚正使他们变得更加自我中心、道德上更加固执。”他强调，AI谄媚已构成“安全问题”，如同其他技术安全议题一样，亟需监管与外部监督。

目前，研究团队正探索降低模型谄媚倾向的技术路径。初步发现，在提示词开头加入“等一下”（wait a minute）等短语，可在一定程度上缓解该问题。但程妙仍建议：“现阶段，对于情感支持、道德判断等敏感事务，不应以AI替代真人交流——这是最稳妥的做法。”