GenExam团队 投稿
量子位 | 公众号 QbitAI
从GPT-4o到Nano Banana、Seedream 4.0,今年的大模型想要出圈,“画得好”俨然成了必杀技。
不过,在比拼真实感、艺术性方面,生图模型是神仙打架,在“做题”上,现如今的模型们又到底能力几何?
比如,当指令变成画出1-甲基环己烯酸催化水合的反应机理、根据给定的边集画出图的最小生成树,模型能否像相关专业的人类考生一样,真正把知识理解、推理和作图结合在一起?
针对这个问题,上海人工智能实验室、上海交大、清华大学、香港中文大学联合发布了首个多学科文生图考试基准GenExam。

这一基准参考人类考试中的作图题,覆盖10 个学科、1000个严选好题,用“考试思维”重新定义文生图模型的能力边界。
实验结果却让人大跌眼镜:即便是GPT-4o这样的顶级模型,严格评分下正确率也仅12.1%,开源模型更是全部接近0分。

这是怎么一回事?
GenExam:不止是“画图”,更是“面向AGI的综合测试”
考试是衡量人类达到专家级智能的重要标准,这在理解任务的MMMU等基准上已经很有体现。GenExam则将文生图也视为“人类学科考试”,和传统文生图基准明显不同。它涵盖数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程10个一级学科,每个学科都聚焦“绘图类考题”,题目经过GPT-5初筛与人类审核把关,确保严谨性。

类似人类考试,GenExam的“学科绘图题”有四大核心特征:
-
“题目”(文生图prompt)多样、复杂且约束严格,平均长度达到74.8个单词,远超普通T2I prompt,比如“用H2SO4和H2O作为催化剂,画出1-甲基环己烯的酸催化水合反应机理,明确反应物、反应条件、主产物,并根据马尔科夫规则标注羟基位置”;
-
有明确的“参考答案”(ground truth图像)提高评测准确性,有“评分标准”(评分点)逐点检查正确性,平均每道题6.9个评分点,比如“催化剂是否为H2SO4和H2O”、“反应物是否为1号位有甲基、包含双键的六元环”,每个得分点对应不同权重。
-
学科知识覆盖深且广,可系统化层级分类,形成严格的“四级学科分类体系”。
-
需要模型融合理解(读懂考题)、推理(推导过程)、生成(精准绘图)三大能力。
细粒度评测体系

传统文生图评测总纠结“像不像”、“美不美”,但学科绘图更在意“对不对”——化学结构中的一个碳原子/物理电路图中的一个箭头画错,整个图就错了。
为此,GenExam设计了双维度、两标准的评测体系,用GPT-5作为“自动阅卷老师”,确保评分客观准确:
两大评测维度
-
语义正确性:模型画的是不是“符合题意”?基于每道题的评分点,让GPT-5做视觉问答(比如“分子是否含8个碳原子?”),并提供ground truth图片作为参考提高评分准确性,将做对的题的分数之和作为语义分数;
-
视觉合理性:画对了,但“卷面”好不好?分三项打分。
-
拼写:公式、标签有没有拼写错; -
逻辑一致性:坐标、刻度是不是对应; -
可读性:元素有没有遮挡、标签是不是清晰。
严格/宽松双标准
-
严格得分:只有语义全对+视觉合理性三项全满分才算正确; -
宽松得分:语义(70%权重)+拼写(10%)+逻辑(10%)+可读性(10%)的加权平均分,给模型“部分得分”的空间,适合区分模型间的相对差距。
顶尖模型也不及格,开源模型全军覆没

团队测试了18个主流模型,包括闭源“顶流”(例如GPT-Image-1(GPT-4o)、Gemini-2.5-Flash-Image(Nano Banana))、开源专用文生图模型(例如Qwen-Image、FLUX.1 dev)、理解生成一体化模型(例如BAGEL、Show-o2),结果让人意外:
-
闭源模型:即使是表现最好的GPT-Image-1严格得分也只有12.1%。其他闭源模型分数不足10%。这些模型能画出大致框架(比如苯环的六边形),但细节经常有严重错错误比如少画氢原子、键型标反)。
-
开源模型:所有模型严格得分均接近0%,哪怕是表现最好的Qwen-Image,严格得分也只有0.3%。统一多模态模型(如BAGEL、Show-o2)表现还不如专用文生图模型,暴露出“整合学科知识到图像生成”的能力缺失。
当对比宽松得分时,开源模型(10~30分)和闭源模型(50~60分)的差距依然明显,在语义正确性、拼写、逻辑一致性、可读性四个方面中都存在显著差异。

错误案例直击痛点

通过定性分析,论文团队总结了模型的三大典型错误:
-
知识缺失:比如音乐题中画错半音圈的调号顺序; -
推理不足:比如几何题中算错函数交点坐标; -
视觉疏漏:比如拼写错误、标签错位(如将“-1,0”标在y轴上)。

在学科场景中,任何一个小错误都可能导致“满盘皆输”——这也正是GenExam的价值所在:它精准捕捉了文生图模型在“专业场景”中的核心短板。
通向专家级智能
GenExam将“图像生成”转化为“考试任务”,给文生图模型设立了一个新目标:从“画得好看”走向“画得正确”。
当前,即便是最顶尖的模型,在GenExam的考试中也仅处于不及格水平,这既是挑战,也是机遇——它意味着未来的模型需要在知识整合、逻辑推理、精准生成上持续突破,才能真正从“通用图像生成工具”升级为“专业领域助手”。毕竟未来的AI不仅要会“创作艺术”,更要能“辅助学习”、“助力科研”,而这些都离不开对学科知识的精准理解与生成。
未来,当模型能轻松通过GenExam的多学科考试时,或许我们才能说它们真正迈入了“专家级AGI”水平。但现在,这场考试才刚刚开始。
GitHub链接:https://github.com/OpenGVLab/GenExam
论文链接:https://arxiv.org/abs/2509.14232
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —