Open AI “自曝家丑”:机器人出错的真相,承认一直在训练AI大模型「撒谎」……

深蓝具身智能 2025-09-20 10:56

资讯配图

资讯配图

在机器人统治世界之前,它们可能会先“谋杀掉”人类。

大语言模型幻觉|机器智障

一句错误的指令,在聊天对话框中或许无伤大雅。

但如果这种“错误幻觉”,从数字世界迁移到物理世界,其风险将被无限放大。

比如当一个机器人执行指令时,它可能错拿一瓶致命的药丸、走向一个危险的房间,或者错误识别一个需要帮助的人。

没错,这就是长久以来大语言模型的“幻觉”问题,它也一直被视为其迈向更高智能的核心障碍之一。

而最近,OpenAI发布的一篇文章,就专门讨论了这个“老生常谈”的问题——为什么大模型总是会“胡说八道”?

并且,文中「自曝其短」,给出了一个令人不安的结论:

LLM的“胡说八道”并非一个简单的技术缺陷,而是当前训练和评估体系下的一种必然

甚至,这种错误的行为模式,一直在被无意的“奖励”着……

简单来说,Open AI揭示:他们在训练过程中无形中奖励了AI的“谎言”,却又要求它在现实世界中提供“真相”。

资讯配图

所以,今天我们就来聊聊:大模型幻觉的成因,并结合具身智能的落地案例,聊聊研究者们正在如何尝试破解这一难题。

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

资讯配图

幻觉的本质

什么是大模型的幻觉?简单来说,就是它生成了看似合理却完全错误的内容。

那,为什么会这样呢?

OpenAI 给出了一个核心解释:

幻觉不是模型“撒谎”,而是它在训练和评估过程中被推向了“乱猜”。

比如学生做选择题:留空一定是零分,但蒙一个答案也许有机会得分。

大模型的学习过程很类似:比起留空不回答,哪怕是“三短一长选最长”也能够让大模型在训练的过程中得到更高的评分。

在预训练阶段,模型只是根据上下文预测下一个词,就算数据完美,也会不可避免地出现“模式匹配错误”;

在后训练阶段,如果模型说“我不知道”,几乎必然会被当成错误,而如果它“编一个答案”,可能恰好对上,得到奖励。

长此以往,模型就学会了在不确定时“自信地乱说”。

因此,幻觉不是偶尔的 bug,而是统计学习的副作用。

资讯配图

图1|OpenAI团队做了一项测试,对主流大模型提问一个随机人名的毕业论文题目是什么,面对这个摸不着头脑的问题,三个主流大模型都通过“瞎猜”给出了答案,没有任何大模型回答“不知道”©️【深蓝具身智能】编译

模型在本质上并没有“知道”与“不知道”的概念,它只是在概率空间里挑选一个最像正确答案的词串。

这种机制在对话场景中还能勉强接受,但一旦放到机器人身上,后果就要严重得多

资讯配图

幻觉在具身智能里的风险

在具身智能里,幻觉并不是“说错话”那么简单,而是会直接转化为行动偏差。

这里我们聚焦三个最典型、也是最危险的场景:导航幻觉、物体误判、长时任务。

接下来依次具体介绍。

 导航幻觉:不确定时也要“先走再说”

机器人接到“去会议室”的指令,前方拐角区域未完全可见,却依然一路直行。

结果要么走到死胡同,要么撞在玻璃门上。

在训练和评估中,“移动”往往比“停留”更容易拿分,奖励函数鼓励“保持进度”;

语言先验会在信息稀缺时填补空白,比如“走廊尽头通常是房间”。

于是,在不确定时,机器人倾向于选择自信地往前,而不是停下来收集更多信息。

路径绕远、效率低,严重时会发生物理碰撞。

导览机器人把透明玻璃门幻觉成“空旷通道”,在进度奖励驱动下径直撞上去。

资讯配图

人行机器人在楼梯上摔倒:楼梯两侧的墙面是反射率很高的不锈钢材质,会让机器人的感知系统误以为这是能够前进的“空旷地带”,因此在机器人初次与墙面发生碰撞后,继续因为认为“前面可行”,而生成置信度最高的“前进”动作,导致进一步撞墙,最终摔倒©️【深蓝具身智能】编译

物体误判:语义正确,几何错误

家务机器人执行“拿勺子”的指令,看见桌上有个银色长柄物体,就径直去抓。

却发现是把刀。

VLM 对类别的语义识别更强,但对三维姿态、几何细节建模不足;

数据偏差让模型过度依赖外观特征(闪亮的金属柄=勺子)

稀疏奖励设计下,“快速拿起”就算成功,没有激励它去多角度确认。

抓错物、姿态错误导致掉落甚至危险。

在餐桌灯光反射下,刀柄的高光区域被当成“勺沿”,导致机械臂抓取方向完全偏离。

资讯配图

分类器(虚线)在某些概念上可能准确,例如拼写(顶部),但错误往往源于模型不佳(中间)或在数据中没有模式的情况下出现的任意事实(底部)。©️【深蓝具身智能】编译

长时任务:小小幻觉,连锁失误

机器人执行“整理房间”,一开始规划合理:收纳 → 擦拭 → 归位。

但执行两步后,抹布掉到地上被桌子挡住了,它却仍然“认为抹布还在台面上”,继续做后续步骤。

语言推理链条强调自洽(self-consistency),缺乏状态校正;

奖励函数往往只看“最终完成率”,忽略中途是否会发生一些微小的错误

因此当环境状态和计划出现偏差时,模型更倾向于“继续演下去”。

任务越做越乱,效率低下,能耗增加。

机器人在“假设抹布已收纳”的前提下反复寻找下一个目标,反而在桌边空转浪费大量时间。

资讯配图

幻觉是通过比较LLM的答案与真实值来定义的。©️【深蓝具身智能】编译

小结

这三个场景本质上是一回事:

幻觉让机器人在“不知道”时仍然“装作知道”,而系统奖励和机制往往会推着它这么做。 

在聊天里,这最多是笑话;在现实里,这就是潜在的危险。

资讯配图

为什么幻觉难消失?

从表面上看,机器人出现幻觉似乎是“训练没到位”或者“模型粗心大意”。

但 OpenAI 的论文强调:

幻觉不是偶然的 bug,而是大模型架构和训练范式的结构性副产物。

在具身智能里,这些结构性缺陷被进一步放大,主要体现在三个方面:

缺乏真实世界的 grounding

语言模型擅长在文本中找模式,却并不真正理解世界因果。

比如它“知道”走廊通常通向房间,但这只是统计共现,而不是空间几何推理。当机器人依赖这种语言先验来导航时,就容易把“玻璃门”幻觉成“通道”。

感知与语言的脱节

VLM / VLA 的核心优势是把视觉、语言和动作统一到一个空间。

但这种融合往往是“语义主导”的:语言标签覆盖了感知噪声,却掩盖了几何约束

比如模型可以很自信地说“这就是勺子”,却忽视了手柄角度、物体体积等信息。

不确定性缺失:不会说“我不知道”

当前大模型几乎没有在输出中显式表达“不确定”的机制。

即便在最模糊的情况下,它也会给出一个自信答案,机器人执行时,等于在“没把握”的情境下仍然盲动。

小结

归根到底,大模型幻觉之所以顽固,是因为现有范式下,“猜一个答案”始终比“说不知道”更有利。

而在具身智能中,这种倾向会被物理执行放大:幻觉不再是信息偏差,而是动作偏差,风险更高。

资讯配图

研究者如何应对?

幻觉难以避免,但并非无解。

OpenAI 在论文中提出:要减少幻觉,就要改变模型在训练和评估中的激励机制,让“不知道”成为可接受甚至被奖励的输出。

这一点在具身智能领域尤其重要,因为机器人如果敢承认不确定,就能用更安全的方式探索环境。

改变奖励:让“不确定”有价值

实际上许多自动驾驶的事故,就是由于模型的幻觉,误判了当前的路况,从而产生错误的汽车底盘指令导致的。

资讯配图

北大一项最新的研究,通过将错误的轨迹作为学习资源,从错误和不确定性中学习,从而让系统具备了识别偏差轨迹的能力,最终提高了机器人执行任务的成功率©️【深蓝具身智能】编译

相关阅读:成功率提升16.4%!北大董豪团队提出“自我纠错飞轮”:革新视觉语言导航训练范式

多模态融合:让感知制约语言

世界模型:先模拟,再行动

不确定性感知:学会“谨慎”而非“自信错误”

资讯配图

港科大的前沿研究提出:通过让大预言模型自我反省,能够减少幻觉的产生©️【深蓝具身智能】编译

资讯配图

总结

大模型的幻觉,在对话里或许只是个笑话,但在具身智能里却可能变成隐患。

导航时走错路、抓取时拿错物、执行长任务时一路错下去……

这些现象背后都源于同一个问题:模型在“不知道”时,习惯“装作知道”。

OpenAI 的最新研究提醒我们,幻觉不是偶然,而是大模型训练范式的自然产物。

要想让机器人真正可靠,研究者们必须重新设计奖励,让“不确定”变得有价值;必须用多模态和世界模型来弥补语言的不足;必须让智能体敢说“我不知道”,而不是自信地乱动。

未来的具身智能不只是“更聪明”,更要“更诚实”。

或许有一天,我们会觉得,一个能停下来说“让我确认一下”的机器人,比一个滔滔不绝却常常犯错的机器人,更值得托付。

编辑|阿豹

审编|具身君


参考文献:

1. Why Language Models Hallucinate

2. Xu Z, Jain S, Kankanhalli M. Hallucination is inevitable: An innate limitation of large language models[J]. arXiv preprint arXiv:2401.11817, 2024.

3. Ji Z, Yu T, Xu Y, et al. Towards mitigating LLM hallucination via self reflection[C]//Findings of the Association for Computational Linguistics: EMNLP 2023. 2023: 1827-1843.

4. Martino A, Iannelli M, Truong C. Knowledge injection to counter large language model (LLM) hallucination[C]//European Semantic Web Conference. Cham: Springer Nature Switzerland, 2023: 182-185.

5. Yu Z, Long Y, Yang Z, et al. CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model[J]. arXiv preprint arXiv:2508.10416, 2025.


工作投稿|商务合作|转载

:SL13126828869(微信号)

>>>现在成为星友,特享99元/年<<<

资讯配图

资讯配图

【具身宝典】具身智能主流技术方案是什么?搞模仿学习,还是强化学习?看完还不懂具身智能中的「语义地图」,我吃了!你真的了解无监督强化学习吗?3 篇标志性文章解读具身智能的“第一性原理”解析|具身智能:大模型如何让机器人实现“从冰箱里拿一瓶可乐”?盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?动态避障技术解析!聊一聊具身智能体如何在复杂环境中实现避障


【技术深度】具身智能30年权力转移:谁杀死了PID?大模型正在吃掉传统控制论的午餐……全面盘点:机器人在未知环境探索的3大技术路线,优缺点对比、应用案例!照搬=最佳实践?分享真正的 VLA 微调高手,“常用”的3大具身智能VLA模型!机器人开源=复现地狱?这2大核武器级方案解决机器人通用性难题,破解“形态诅咒”!视觉-语言-导航(VLN)技术梳理:算法框架、学习范式、四大实践盘点:17个具身智能领域核心【数据集】,涵盖从单一到复合的 7 大常见任务类别90%机器人项目栽在本地化?【盘点】3种经典部署路径,破解长距自主任务瓶颈!VLA模型的「核心引擎」:盘点5类核心动作Token,如何驱动机器人精准操作?


【先锋观点】周博宇 | 具身智能:一场需要谦逊与耐心的科学远征许华哲:具身智能需要从ImageNet做起吗?独家|ICRA冠军导师、最佳论文获得者眼中“被低估但潜力巨大”的具身智能路径独家解读 | 从OpenAI姚顺雨观点切入:强化学习终于泛化,具身智能将不只是“感知动作”人形机器人赛道:“爆单”是假,“饥饿”是真。


【非开源代码复现】非开源代码复现 | 首个能抓取不同轻薄纸类的触觉灵巧手-臂系统PP-Tac(RSS 2025)独家复现实录|全球首个「窗口级」VLN系统:实现空中无人机最后一公里配送不碰真机也不仿真?(伪代码)伯克利最新:仅用一部手机,生成大规模高质量机器人训练数据!

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇


资讯配图

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

投稿|商务合作|转载:SL13126828869(微信)


资讯配图

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 机器人
more
抢鲜!第十一届中国机器人高峰论坛暨第八届 CEO 圆桌峰会议程曝光,预约你的参会指南
《机器人》2025年5期正式上线啦!
上半年引擎全开,库卡移动机器人2025提速
又有两位智驾大牛联手入局具身智能机器人赛道创业,已完成数亿元融资!
字节提出Robix大模型!三阶训练+统一架构,打破机器人认知瓶颈,真实场景任务完成率领先
机器人创业九十九死一生·避坑白皮书
70后中科大女硕士带队,这家服务型智能机器人IPO获备案!
【机器人】孙志强:瞄准“卡脖子”领域瑞松科技发力高精高速机器人新赛道
Open AI “自曝家丑”:机器人出错的真相,承认一直在训练AI大模型「撒谎」……
抢鲜!第十一届中国机器人高峰论坛暨第八届CEO圆桌峰会议程曝光,预约你的参会指南
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号