Venus团队 投稿
量子位 | 公众号 QbitAI
你随手拍下一张照片,AI也许只会夸“真好看”,却说不出一句真正有用的建议。
面对构图失衡、主体模糊的照片,现有大模型往往停留在泛泛而谈的“赞美式反馈”上:既识别不了问题出在哪里,也无法给出具体、可操作的拍摄指导。
针对这一挑战,北京大学彭宇新教授团队在美学理解领域开展了最新研究,定义了美学指导这一任务,并构建了首个美学指导数据集AesGuide。该数据集包含超过一万张照片,以及与之配套的专业分析和拍摄建议。在此基础上,团队进一步提出美学指导大模型Venus,通过渐进式审美问答与思维链裁剪推理赋予大模型美学理解能力,使AI从“被动描述图像”迈向“主动指导拍摄”。相关论文已被CVPR 2026接收,并已开源。

从“图像描述”到“摄影指导”
智能手机的普及使拍照融入日常生活中,成为人们留存记忆、分享生活、记录情绪的便捷方式。但“拍得到”不等于“拍得好”,由于缺乏专业的摄影经验与审美训练,许多用户在构图布局、取景视角与人景关系等关键环节难以做出准确判断,导致照片无法拍好,在质感与表现力上与专业摄影作品存在巨大差距。
相比之下,专业摄影师不仅能够精准识别照片中的核心美学问题(如构图失衡、机位不当、主体不突出等),还能在拍摄时给出具体、可操作的改进建议(如调整构图比例、变换拍摄机位、优化用光角度与人物姿态等),从而提升照片的美学质量与表达张力。
本文将这种“识别美学问题并给出专业指导”的能力定义为美学指导(Aesthetic Guidance,AG),如图1所示,旨在帮助非专业用户拍摄出媲美专业摄影水准的照片,具有重要的研究意义与应用价值。

△ 图1. 美学指导任务示意图

△ 图2. 现有大模型在美学指导任务中的失败案例
近年来,多模态大模型凭借强大的视觉-语言联合建模能力,在图像理解、描述生成、开放域问答等通用任务上取得了显著进展。然而,当任务从“被动描述图像”进一步走向“主动指导拍摄”时,现有模型仍存在明显不足:即使面对构图失衡、主体模糊、画面杂乱等存在明显缺陷的照片,模型也常常倾向于给出赞美式的正向评价,既难以准确识别照片的美学问题,更无法提供与照片内容强对应、可直接操作的调整建议,如图2所示。
进一步地,这种美学指导能力的缺失还会传导至另一项紧密相关的任务——美学裁剪(Aesthetic Cropping, AC)。美学裁剪旨在通过二次取景突出照片主体并优化整体构图,进而提升照片美感,如图3所示。
然而,现有多模态大模型难以定位视觉重心并区分干扰区域,因此无法确定合理的裁剪范围,导致裁剪结果偏离理想构图,无法实现照片美感的提升,如图4所示。

△ 图3. 美学裁剪任务示意图

△ 图4. 现有大模型在美学裁剪任务中的失败案例
针对上述问题,北京大学彭宇新教授团队构建了一个新的美学指导数据集与评测基准AesGuide,并提出美学指导大模型Venus:
(1)首先,通过渐进式审美问答赋予大模型美学指导能力,使其从“客观描述”进一步走向“识别问题+提供建议”;
(2)其次,通过思维链裁剪推理激活模型的美学裁剪潜能,提高其对裁剪边界的定位能力。
实验结果表明,Venus在AesGuide和开源美学裁剪评测基准FLMS上均取得了优于现有方法的效果。本文将美学理解从“被动描述”推进到“可操作、可解释、可交互”的视觉优化,为创作更贴近人类审美的智能影像提供了新的思路。
技术方案
为支撑美学指导的训练与评测,本文构建了一个新的美学指导数据集与评测基准AesGuide。
AesGuide共包含10,748张真实照片,每张照片均标注美学分析与美学指导,如图5所示。不同于以往偏“描述/夸赞”的数据,AesGuide面向真实拍摄场景,强调可操作的拍摄建议,主要体现在两点:
1. 美学评价:每张照片配有专业美学评价,明确指出构图松散、光线失衡、人景关系不协调等关键问题;
2. 拍摄指导:在美学评价的基础上进一步给出具体可操作的调整方案,形成“问题-原因-调整”的完整闭环。

△ 图5. AesGuide数据集样本示例
为解决大模型对照片过度正向评价、美学裁剪定位不准的问题,本文提出了美学指导大模型Venus。如图6所示,Venus的构建过程包含2个主要步骤:
1. 美学指导能力构建:通过渐进式审美问答,引导模型形成更接近人类的审美推理路径,赋予大模型美学指导能力;
2. 美学裁剪能力激活:通过思维链裁剪推理,联合学习几何取景决策与构图逻辑,提高对裁剪边界的定位能力。具体如下:
阶段I:美学指导能力构建。
开源多模态大模型通常采用两阶段训练范式:第一阶段利用海量数据对齐视觉编码器与大语言模型的表征空间;第二阶段在人工标注数据上进行监督指令微调。本文在此基础上,进一步在AesGuide数据集上进行微调,赋予大模型美学指导能力。具体而言,本文参考人类审美推理过程,构建“整体印象-细致分析-可操作建议”的渐进式审美问答思维链,通过由浅入深、难度递增的美学问答训练,引导模型形成更接近人类的审美推理路径。
每条训练样本记为(x,q,a,g),其中x为输入图像,q为用户指令,a为美学分析,g为美学指导。训练目标为最大化模型在给定(x,q)条件下生成a和g的条件概率,即:

其中,AG为AesGuide数据集,y为a和g的拼接序列,πθ为大模型的词元分布。训练过程中,冻结视觉编码器与模态连接器,仅更新大语言模型参数。为验证通用性与跨架构适配性,本文对5个不同架构的开源大模型进行微调,包括Qwen-VL-Chat、InternVL 2.5、MiniCPM-V 2.6、LLaVA-1.5-7B和LLaVA-1.5-13B。微调后的模型分别记为Venus-Q、Venus-I、Venus-M、Venus-L-7B和Venus-L-13B。

△ 图6. 美学指导大模型(Venus)框架图
阶段II:美学裁剪能力激活。
现有裁剪方法通常对候选裁剪框进行打分或直接回归裁剪坐标,缺乏对裁剪行为背后美学原理与视觉意图的理解,本质上是对坐标的“盲目学习”。为解决这一问题,本文提出思维链裁剪推理,通过联合学习裁剪坐标及其背后的构图逻辑,提高大模型对裁剪边界的定位能力。
具体而言,本文为每个裁剪框生成高质量的美学依据,引导多模态大模型对裁剪行为进行显式推理。为保证美学依据的可靠性,设计了两阶段流程:
(1)美学依据生成:在原始图像上用红色矩形框高亮裁剪区域,并将带框图像输入GPT-4o,提示其解释该区域构图更优或更差的原因;
(2)美学依据校验:使用Qwen2.5-VL-72B对生成的美学依据进行审核,验证其是否与视觉内容一致?能否正确反应裁剪质量?未通过校验或推理质量较低的样本将被自动标记并重新生成,形成“生成-校验-再生成”的闭环,直至美学依据满足质量标准。
在本阶段,模型同时预测裁剪坐标及对应的美学依据。每条训练样本记为(x,q,b,r),其中x为输入图像,q为用户指令,b为裁剪坐标,r为美学依据。训练目标为最大化模型在给定(x,q)条件下生成b和r的条件概率,即:

其中,D为美学裁剪数据集,y为b和r的拼接序列,πAG为第一阶段得到的美学指导模型的词元分布。训练过程中,对模型进行全参数微调。本文选用Venus-Q进行美学裁剪能力激活。
实验结果
表1展示了在AesGuide评测基准上的美学指导结果。本文提出的5个美学指导大模型在AesGuide上均取得了稳定提升,各项指标均优于OpenAI的GPT-4o、谷歌的Gemini-2.0-Pro等闭源商业模型,展现出可靠的美学指导能力。表2展示了在开源FLMS评测基准上的美学裁剪结果。Venus的美学裁剪能力不仅优于闭源商业模型和现有的美学大模型,还超过了专用的美学裁剪模型。

△ 表1. 美学指导大模型(Venus)在AesGuide评测基准上的美学指导结果
需要指出的是,美学理解本身具有较强的主观性,并受到用户偏好影响,因此并不存在唯一的标准答案。在这一前提下,理想的美学模型需要在精度、可解释性与可交互性之间取得平衡。具体到美学裁剪任务,可解释性是指模型不仅能给出合理的裁剪结果,还能说明裁剪背后的构图依据与美学原因;可交互性是指模型能够理解用户需求,并通过多轮交互支持个性化裁剪。
然而,现有方法难以同时满足这三方面需求:专用美学裁剪模型虽然精度较高,但缺乏对裁剪结果的解释,也难以支持灵活交互;多模态大模型虽然具备较强的解释与交互能力,但裁剪精度不足。本文提出的美学指导大模型Venus融合了两类方法的优势,在保持高裁剪精度的同时,兼具良好的可解释性与交互能力。
图7的案例展示表明,相比OpenAI的GPT-4o,Venus能更准确地识别画面中的干扰区域,生成更具美感的裁剪结果。除了给出裁剪框外,Venus还能够清晰说明裁剪背后的构图依据与美学原因,并支持基于自然语言反馈的交互式优化(如突出主体、调整画面平衡、改变聚焦区域等),从而实现兼具可解释性与可交互性的美学裁剪。

△ 图7. 美学指导大模型(Venus)案例展示
项目价值
针对现有大模型对照片过度正向评价、美学裁剪定位不准的问题,本文构建了一个新的美学指导数据集与评测基准AesGuide,并提出美学指导大模型Venus:
首先,通过渐进式审美问答赋予模型美学指导能力;其次,通过思维链裁剪推理激活模型的美学裁剪潜能。
实验结果表明,Venus在AesGuide与开源美学裁剪评测基准FLMS上均取得了优于现有方法的结果。本文将美学理解从“被动描述”推进到“可操作、可解释、可交互”的视觉优化,为创作更贴近人类审美的智能影像提供了新的思路和方法。

△ 表2. 美学指导大模型(Venus)在FLMS评测基准上的美学裁剪结果
论文标题:
Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping
论文链接:
https://arxiv.org/abs/2602.23980
开源代码:
https://github.com/PKU-ICST-MIPL/Venus_CVPR2026
实验室网址:
https://www.wict.pku.edu.cn/mipl
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

🌟 点亮星标 🌟