Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点

量子位 2025-09-24 11:28
GenExam团队 投稿
量子位 | 公众号 QbitAI

从GPT-4o到Nano Banana、Seedream 4.0,今年的大模型想要出圈,“画得好”俨然成了必杀技。

不过,在比拼真实感、艺术性方面,生图模型是神仙打架,在“做题”上,现如今的模型们又到底能力几何?

比如,当指令变成画出1-甲基环己烯酸催化水合的反应机理根据给定的边集画出图的最小生成树,模型能否像相关专业的人类考生一样,真正把知识理解、推理和作图结合在一起?

针对这个问题,上海人工智能实验室、上海交大、清华大学、香港中文大学联合发布了首个多学科文生图考试基准GenExam

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点图1

这一基准参考人类考试中的作图题,覆盖10 个学科、1000个严选好题,用“考试思维”重新定义文生图模型的能力边界。

实验结果却让人大跌眼镜:即便是GPT-4o这样的顶级模型,严格评分下正确率也仅12.1%,开源模型更是全部接近0分

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点图2

这是怎么一回事?

GenExam:不止是“画图”,更是“面向AGI的综合测试”

考试是衡量人类达到专家级智能的重要标准,这在理解任务的MMMU等基准上已经很有体现。GenExam则将文生图也视为“人类学科考试”,和传统文生图基准明显不同。它涵盖数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程10个一级学科,每个学科都聚焦“绘图类考题”,题目经过GPT-5初筛与人类审核把关,确保严谨性。

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点图3

类似人类考试,GenExam的“学科绘图题”有四大核心特征:

细粒度评测体系

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点图4

传统文生图评测总纠结“像不像”、“美不美”,但学科绘图更在意“对不对”——化学结构中的一个碳原子/物理电路图中的一个箭头画错,整个图就错了。

为此,GenExam设计了双维度、两标准的评测体系,用GPT-5作为“自动阅卷老师”,确保评分客观准确:

两大评测维度

严格/宽松双标准

顶尖模型也不及格,开源模型全军覆没

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点图5

团队测试了18个主流模型,包括闭源“顶流”(例如GPT-Image-1(GPT-4o)、Gemini-2.5-Flash-Image(Nano Banana))、开源专用文生图模型(例如Qwen-Image、FLUX.1 dev)、理解生成一体化模型(例如BAGEL、Show-o2),结果让人意外:

当对比宽松得分时,开源模型(10~30分)和闭源模型(50~60分)的差距依然明显,在语义正确性、拼写、逻辑一致性、可读性四个方面中都存在显著差异。

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点图6

错误案例直击痛点

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点图7

通过定性分析,论文团队总结了模型的三大典型错误:

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点图8

在学科场景中,任何一个小错误都可能导致“满盘皆输”——这也正是GenExam的价值所在:它精准捕捉了文生图模型在“专业场景”中的核心短板。

通向专家级智能

GenExam将“图像生成”转化为“考试任务”,给文生图模型设立了一个新目标:从“画得好看”走向“画得正确”。

当前,即便是最顶尖的模型,在GenExam的考试中也仅处于不及格水平,这既是挑战,也是机遇——它意味着未来的模型需要在知识整合、逻辑推理、精准生成上持续突破,才能真正从“通用图像生成工具”升级为“专业领域助手”。毕竟未来的AI不仅要会“创作艺术”,更要能“辅助学习”、“助力科研”,而这些都离不开对学科知识的精准理解与生成。

未来,当模型能轻松通过GenExam的多学科考试时,或许我们才能说它们真正迈入了“专家级AGI”水平。但现在,这场考试才刚刚开始。

GitHub链接:https://github.com/OpenGVLab/GenExam
论文链接:https://arxiv.org/abs/2509.14232

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源
more
NVIDIA 培训 | 学习数字孪生系列课程,为物理 AI 时代做好准备
刘强东挂帅探索研究院院长,AI升级为京东一把手工程
超级AI云,未来10年阿里云的核心战略 | 甲子光年
互联网大厂携手中企持续推动中国 AI 出海进程
什么样的 AI 产品变现能力最强?
清智资本张煜:AI投资的下一个价值点何在?|甲子引力X
张亚勤:智能体互联网(Internet of Agents)是AI下一站
AI时代下,全球及中国半导体产业现状与展望
AI重构供应链,京东剑指万亿人工智能生态
一场“垃圾堆积问题”的AI数据漂流
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号