人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”

量子位 2025-09-09 20:17
VYU团队 投稿
量子位 | 公众号 QbitAI

人类一眼就能看懂的文字,AI居然全军覆没。

来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现:

不管是OpenAI的GPT-5、GPT-4o,还是谷歌Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看得见但读不懂”的文字时,全都表现极差,直接“翻车”。

资讯配图

先切再叠,AI束手无策

VYU团队设计了两个小实验:

1、选取了100条四字成语,把每个汉字横切、竖切、斜切,再把碎片重新拼接。

资讯配图

人类读起来毫无压力,AI却几乎全错。

资讯配图
资讯配图

2、挑选了100个八字母英文单词,把前后两半分别用红色和绿色渲染,再叠加在一起。

资讯配图

对人类来说,这几乎不构成挑战——因为我们的视觉系统对红/绿通道异常敏感,大脑能自动分离颜色,然后拼出完整的单词。

但对AI模型来说,结果却完全不同:

资讯配图
资讯配图

即使是最新发布的大模型,在这些问题上也屡屡碰壁。

无论是Gemini 2.5 Pro:

资讯配图
资讯配图

还是Kimi 2(Switch to 1.5 for visual understanding) :

资讯配图
资讯配图

(PS:Kimi 2最终推测的答案是hardline)

又或者Qwen3-Max-Preview

资讯配图
资讯配图

全都得不到正确的结果。

AI不懂符号分割与组合

对该现象进行分析,VYU团队认为,根本原因在于AI靠模式匹配,不懂文字结构

人类之所以能“读懂”,是因为我们依赖结构先验——知道汉字由偏旁部首组成,知道英文是按字母组合的。

而大模型只是把文字当作“图片模式”来识别,没有符号分割与组合的机制。

于是,只要文字稍作扰动(但人类依旧能看懂),AI就会彻底崩溃。

资讯配图

这个问题之所以值得研究,是因为它关系到AI落地的核心挑战:

VYU团队认为,要想让AI拥有类似人类的韧性,必须重新思考VLMs如何整合视觉与文本——

也许需要新的训练数据、更注重分割的结构先验,或者全新的多模态融合方式。

更重要的是,这一结果也提醒我们:人类的阅读理解从来不是单一模态的过程,而是依赖多重感知与推理的综合能力。

论文链接:https://zjzac.github.io/publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI EMI 测试
more
活动预告丨2025亚洲人工智能技术大会(ACAIT2025)将于9月12-14日在鄂尔多斯举办
刚刚,世界首富易主!81岁甲骨文创始人凭AI算力单日暴涨1010亿美元,反超马斯克
人工智能通用如何影响国家的兴衰【AI战略洞察】
当AI集群突破万卡:铜线已死,光进芯片
谁在你的AI里“做广告”?
【AI】DeepSeek新大招曝光:下一步智能体
移动、电信也将支持 eSIM,iPhone Air 买前须知!
OpenAI,最新技术分享
AI会不会颠覆生产关系?从一个小案例说起...
华为专家解读384!超节点与智算集群研讨会议程出炉,还覆盖OCS超节点、AI网络等议题
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号