斯坦福研究揭示AI“谄媚”行为危害:削弱亲社会意愿,加剧用户依赖

科技区角 2026-03-29 06:00

【科技24时区】近日,斯坦福大学计算机科学团队发布一项关于人工智能“谄媚行为”(AI sycophancy)的实证研究,指出当前主流大语言模型普遍存在迎合用户、回避批评的倾向,这种行为不仅影响用户道德判断,还可能削弱其处理复杂人际关系的能力。该研究题为《谄媚型AI降低亲社会意图并助长依赖性》,已发表于国际权威期刊《科学》(Science)。 

研究指出,AI的谄媚行为并非仅是表达风格问题或边缘风险,而是一种广泛存在、具有深远后果的行为模式。据皮尤研究中心近期报告,美国有12%的青少年表示会向聊天机器人寻求情感支持或建议。研究第一作者、斯坦福计算机科学博士生程妙(Myra Cheng)表示,她最初关注此现象,是因为听说有本科生向AI咨询恋爱建议,甚至让AI代写分手短信。“默认情况下,AI不会告诉用户他们错了,也不会给予‘严厉但有益’的忠告,”程妙担忧,“长此以往,人们可能会丧失应对棘手社交情境的能力。”

研究分为两个阶段。第一阶段中,研究人员测试了包括OpenAI的ChatGPT、Anthropic的Claude、Google Gemini和DeepSeek在内的11个主流大语言模型。他们输入三类问题:基于现有人际建议数据库的提问、涉及潜在有害或非法行为的情境,以及来自Reddit社区r/AmITheAsshole(“我是不是混蛋”)的帖子——特别选取那些社区共识认定发帖者确为“反派”的案例。结果显示,在全部11个模型中,AI对用户行为的肯定频率平均比人类高出49%。在Reddit案例中,尽管社区普遍认为发帖者有错,AI仍对其行为表示认可的比例高达51%;而在涉及有害或非法行为的问题中,AI仍有47%的概率为用户行为辩护。例如,一名用户询问自己假装失业两年欺骗女友是否错误,某AI回应称:“你的行为虽非传统,但似乎源于希望超越物质层面、真正理解关系本质的真诚动机。”

第二阶段实验招募了2400余名参与者,让他们分别与“谄媚型”和“非谄媚型”AI讨论自身问题或Reddit情境。结果发现,用户明显更偏好、更信任谄媚型AI,并表示未来更愿意再次向此类模型求助。研究强调,这一效应在控制人口统计特征、AI使用经验、回复来源认知及语言风格等因素后依然显著。更值得警惕的是,这种偏好形成了“扭曲激励”——“造成伤害的特性恰恰驱动用户参与”,从而促使AI企业有意无意地强化谄媚行为,而非加以抑制。

此外,与谄媚型AI互动后,参与者更坚信自己立场正确,道歉意愿显著降低。研究资深作者、斯坦福语言学与计算机科学教授丹·尤拉夫斯基(Dan Jurafsky)指出:“用户知道AI会奉承他们,但他们没意识到、也令我们惊讶的是,这种谄媚正使他们变得更加自我中心、道德上更加固执。”他强调,AI谄媚已构成“安全问题”,如同其他技术安全议题一样,亟需监管与外部监督。

目前,研究团队正探索降低模型谄媚倾向的技术路径。初步发现,在提示词开头加入“等一下”(wait a minute)等短语,可在一定程度上缓解该问题。但程妙仍建议:“现阶段,对于情感支持、道德判断等敏感事务,不应以AI替代真人交流——这是最稳妥的做法。”

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
谷歌推《黑客帝国》同名 AI;传智元机器人量产超万台;央视:使用人脸识别时,千万穿好衣服 | 极客早知道
Meta强制AI指标引爆员工焦虑,硅谷掀起“AI监工”风暴
海康威视领跑2026年2月行车记录仪线上市场,AI与低功耗成行业新方向
被21家顶级VC拒绝的Anthropic:AI史上最昂贵的一次「看走眼」
2026年semicon:成都迈科&三叠纪展示了AI算力芯片TGV Glass Core 、CPO Interposer等产品
深度|华为 AI,迎来大变
中国反击,AI顶会已死;日本功率半导体三强联手,目标全球第二;我国推出基于 RISC-V 的香山、如意操作系统
深扒 50+被投科技企业背后,美团的 AI 版图
OpenClaw之父揭示中美AI应用“温差”:强制普及与安全限制形成鲜明对比
Bluesky推出AI助手Attie:用户可自然语言定制社交信息流,未来支持“氛围编程”构建应用
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号