ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

机器之心 2025-07-17 17:31

本文作者来自于上海人工智能实验室与新加坡南洋理工大学,分别是张凡、田淑琳、黄子琪,指导老师是乔宇老师与刘子纬老师。


怎么快速判断一个生成模型好不好?


最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。


但问题是:



你需要一位专业、耐心、随叫随到的评估顾问。


于是,来自上海人工智能实验室 & 南洋理工大学 S-Lab 的研究者合作研发了一个 AI 版本的「懂行朋友」——Evaluation Agent


它不仅评测,还能听你提问、为你定制测试、写出人类专家一样的分析报告。



这就是视觉生成模型评估的新范式:


Evaluation Agent 入选 ACL 2025 主会 Oral 论文。




为什么选择 Evaluation Agent?


1. 可定制:你说关注点,它来定方案。


不同人对生成模型有不同期待 —— 风格?多样性?一致性?


只需用自然语言说出你的关注点,Evaluation Agent 就能:



真正实现「按需评估」,服务你的具体任务。


2. 高效率:更少样本,评得更快


传统评估动辄需要几千张样本,Evaluation Agent 通过多轮交互式评估与智能采样策略,大幅减少样本数量。整体评估过程的耗时可以压缩到传统方法的 10% 左右,尤其适合在迭代开发中快速反馈。


3. 可解释:让评估结果说人话


结果不仅是表格和数字,Evaluation Agent 会以自然语言生成分析报告,不仅涵盖模型能力的全面总结,还能指出模型的局限性和改进方向。


4. 可扩展:支持不同任务、工具、指标的集成


Evaluation Agent 是一个开放框架,支持集成新评估工具和指标,适用于不同的视觉生成任务(如图片生成和视频生成)。


框架工作原理



Evaluation Agent 框架主要由两个阶段组成:


1. 提案阶段(Proposal Stage)



这一阶段的目标是:根据你的关注点,量身定制评估方案。


2. 执行阶段(Execution Stage)


框架利用视觉生成模型生成内容,并通过相应评估工具进行质量分析。



3. 动态多轮交互


评估不是一次性完成的。Execution 阶段的每一轮评估结果,都会反馈给 Proposal 阶段,用于优化后续 prompt 和任务设置。通过这种多轮协同,Evaluation Agent 实现了对模型能力的动态、深入评估。


结果展示


1. 对比传统评测框架


视频生成模型评测效率上与 VBench 评测框架的对比


图片生成模型评测效率上与 T2I-CompBench 评测框架的对比


研究团队在图片生成任务(T2I)和视频生成任务(T2V)上对 Evaluation Agent 进行了全面验证。结果表明,其评估效率显著高于现有基准框架(如 VBench、T2I-CompBench),相较于传统的评测框架节省了 90% 以上的时间,且评估结果具有较高一致性。


2. 用户开放式评估场景


对用户开放问题评估的部分样例


Evaluation Agent 不仅能够高效评估模型的表现,还能灵活处理用户提出的个性化评估需求,例如:



在处理用户的开放式查询时,Evaluation Agent 展现了卓越的灵活性和深度。它能够根据用户的定制需求,系统地探索模型在特定领域的能力,从基本问题开始,逐步动态深入,最终通过自然语言详细分析和总结评估结果。


例如,对于问题「模型是否能够在保持原始风格的同时生成现有艺术作品的变体?」,下面展示了完整的评估过程。



在 Evaluation Agent 工作中,开放式用户评估问题数据集 (Open-Ended User Query Dataset) 是检验框架开放式评估能力的重要组成部分。该数据集为系统提供了多样化的评估场景,特别是在面临复杂的、用户特定的评估需求时,能够展现出系统的灵活性和动态评估能力。


开放式用户评估问题数据集首先通过用户调研收集了来自用户的一系列针对模型能力的开放问题。随后,经过数据清洗、过滤、扩展以及标签打标等处理,最终完成了数据集的构建。该数据集涵盖了广泛的评估维度,能够全面评估模型的各项能力。下图展示了该数据集在不同类别下的统计分布。


开放式用户评估问题数据集统计分布


前景与进一步计划


Evaluation Agent 的初步研究已经证明其在视觉生成模型评估中的高效性和灵活性。未来,该方向可能在以下领域进一步拓展和深入研究:


1. 扩展评估能力,涵盖更多视觉任务



2. 优化开放式评估机制



3. 从自动评测迈向智能推荐



总结


Evaluation Agent 提出了一种高效、灵活、可解释的视觉生成模型评估新范式。它突破了传统评估方式的限制,能够根据用户需求动态分析模型表现,为生成式 AI 的理解与优化提供支持。无论关注的是准确性、多样性,还是风格与创意,这一框架都能给出清晰、有针对性的评估结果。


研究团队希望这一方法能为视觉生成模型的评估带来新的思路,推动更智能、更灵活的评估体系发展。


图片

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号