

在科研论文的撰写过程中,制作一张清晰、美观、符合出版规范的图表,往往是研究者们耗时耗力的环节。从构思布局、绘制元素、调整样式到最终排版,每一步都需要精细的手工操作。尽管文本生成图像技术近年来取得了显著进展,但在科学插图这个高度结构化的领域,现有工具仍存在明显短板:要么只能处理单一类型的图表,要么生成的静态图片无法进行局部修改,这与研究者实际工作中多样化的需求和迭代式的创作流程相去甚远。
针对这一痛点,来自伊利诺伊大学厄巴纳-香槟分校、清华大学和北京大学的研究团队提出了一种全新的解决方案。他们不再追求一个更强大的单一图像生成模型,而是设计了一个名为 CRAFTER 的“智能体协同框架”。这个框架像一个“智能助手”,能够协调多个专门化的智能体,共同完成从多样化输入(如文本、草图、参考图)生成高质量科学图表,并进一步将其转换为可编辑的矢量文件的全流程工作。

论文标题:CRAFTER: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
论文链接:https://arxiv.org/pdf/2605.30611
开源仓库:https://github.com/HaozheZhao/Crafter
研究背景:科学图表生成的现实困境
科学图表与普通自然图像有着本质区别。它们是由离散的语义组件(如带标签的方框、方向箭头、图标、注释等)按照精确的空间关系组合而成的结构化构图。每个组件都承载着特定的科学含义。现有的AI生成方法在应对这种高度结构化的布局时,常常会产出一些局部错误,例如标签文字混乱、连接线错位、关键组件缺失或重复等。
更关键的是,当前的主流方法存在两个根本性的局限。
首先,系统适用范围狭窄。实践中,研究者需要制作多种类型的图表,包括学术方法图、会议海报和信息图,并且他们很少仅从纯文本描述开始创作,而是基于草图、部分布局或参考图标进行迭代。然而,现有方法大多只专注于“文本到图像”这一种模式,无法适应多样化的图表类型和输入条件。
其次,输出结果难以编辑。基于栅格的生成器产生的是静态图片,研究者无法轻松地调整单个标签、更换配色方案或重新排列组件。虽然有些方法通过生成代码(如TikZ)来输出可编辑的图表,但它们往往缺乏图标和风格化布局的视觉丰富性。
因此,一个完整的科学图表生成流程,必须超越单纯的图像生成,能够产出结构上可编辑的输出,并适应研究人员真实的工作场景。
核心创新:从“更强引擎”到“更好框架”
研究团队意识到,解决科学图表生成的可靠性问题,需要的不是一个更强大的生成“引擎”,而是一个更好的“框架”来协调和引导这个引擎。他们将这个框架称为“智能体协同框架”,其核心思想是:在现有的生成器(无论是图像生成器还是代码生成器)之上,构建一个协调层。这个协调层负责规划、验证和结构化修订,通过检测并修正生成器的失败模式来提升整体输出质量,而无需修改生成器本身。

图1:CRAFTER架构。给定上下文和文档,意图推理器生成初始规范S0。规划生成器D提出K个候选方案;图像生成后端E渲染每个方案;评审者V给出诊断性反馈;规范修订器R将结构化编辑写入S;收敛判断器决定接受、继续优化或回退到最终输出。
CRAFTER框架围绕一个不断演进的、结构化的“图表规范”展开,这个规范作为所有智能体共享的“记忆”。整个流程由五个协同工作的智能体角色驱动:
意图推理器:分析输入(如论文文本、参考图像、草图)和用户指令,推断图表要传达的核心意图和所需的视觉元素,生成初始的规范草案。 规划生成器:基于初始规范,并行提出多种不同的视觉布局方案。 图像生成后端:一个现成的图像生成模型,负责将选定的布局方案渲染成栅格图。 评审者:评估生成的图像,不仅给出分数,更重要的是提供“诊断性”反馈,明确指出哪些维度(如内容准确性、布局连贯性、文字可读性)存在问题,并给出具体的修改建议。 规范修订器:根据评审者的诊断反馈,对共享的图表规范进行“结构化编辑”(例如,添加布局约束、禁止某类元素、调整指定组件大小),而不是简单地往生成提示词里追加一段自由文本。
一个收敛判断器负责控制整个循环,在每一轮后决定是接受当前结果、继续优化,还是回退到之前的最佳版本。这种设计带来了两个关键优势:生成后端是可插拔的,所有任务特定的行为都封装在各个智能体的提示词中,因此同一个框架可以轻松适应不同的图表类型和输入条件,而无需改变架构;修订是结构化的,避免了传统自由文本迭代中常见的指令矛盾问题,使得修正过程更加稳健和一致。
三大机制:应对结构化挑战的利器
为了应对科学图表生成中的三大技术难点(复杂布局下的高输出方差、自由文本修正导致的提示词退化、缺乏结构化的纠正反馈),CRAFTER框架内置了三大核心机制。
多样性驱动的方案探索:现代图像生成器在生成复杂、结构化的图表时,即使使用相同的提示词,不同随机种子下产生的布局和构图也可能有质的差异。CRAFTER将这种方差视为一种搜索资源。规划生成器会并行提出多个(K=3)视觉方案,每个方案代表一种不同的视觉框架(例如横幅布局或多列网格)。图像生成后端并行渲染所有方案,收敛判断器从中选出最佳候选作为后续细化的起点。这种方法能在投入大量细化预算之前,就避免掉根本性不合适的构图选择。
结构化纠正层:传统的基于自由文本的迭代修正会迅速退化,因为连续追加的自然语言指令容易引入矛盾(例如先要求“放大标题”,后又要求“减少空白”),生成器会默默地吸收这些矛盾,导致输出质量在无声无息中下降。CRAFTER的结构化纠正层用对共享规范的“类型化编辑”取代了自由文本的累积。每一轮,规范修订器都将评审者的诊断转换为一系列结构化操作(如“将组件A的字体大小设置为14pt”、“禁止使用深色背景”),直接修改规范本身。下一轮的提示词基于这个更新后、内部一致的规范重新组装,从而避免了指令冲突。
基于诊断性评审的“验证-优化”循环:即使选择了合适的方案并拥有不断完善的规范,第一轮输出通常仍包含局部错误。CRAFTER的评审者会发出包含多维度评分、已识别缺陷和具体修正建议的“诊断性”反馈,而非一个简单的总分。随后,系统进入一个最多进行三轮的优化循环,根据反馈持续修正规范并重新生成。同时,系统会保留“迄今最佳”的检查点,防止优化过程出现非单调性的质量回退。
从静态图片到可编辑矢量图:CRAFTEDITOR
生成高质量的栅格图只是第一步,科研工作流更需要能够进行元素级编辑(如替换图标、补全图表)的矢量文件。为此,团队基于同样的“智能体协同框架”理念,开发了 CRAFTEDITOR,专门用于将栅格科学图表转换为可编辑的SVG(可缩放矢量图形)文件。

图2:CRAFTEDITOR架构。包含三个阶段:1. 提取:通过指令驱动的画布清理,分离出每个图形元素。2. 处理:为每个元素添加描述、定位并分类。3. 合成:将元素组装成SVG骨架,并通过混合评审器进行迭代优化。
CRAFTEDITOR的工作流程分为三个阶段:
提取阶段:科学图表(尤其是包含25到50个视觉元素的会议海报)通常元素重叠、文本混杂,传统分割方法难以处理。CRAFTEDITOR采用指令驱动的清理循环,由一个视觉语言智能体分析输入图片并制定“保留/删除”计划,再由一个可指令的图像编辑器在像素级执行该计划,经过多轮验证和优化,最终得到干净的、分离的单元素素材。 处理阶段:为每个提取出的元素素材生成描述文字,进行视觉定位,并分类为矢量或栅格类型。 合成阶段:这是核心的“框架”应用环节。一个智能体生成SVG骨架,另一个智能体将素材注入骨架中的占位符。随后,一个混合评审器(结合了视觉语言模型的全局评估和程序化检查器的结构化属性审计)对结果进行评估并给出反馈。系统进入迭代优化循环,不断修正SVG源码,直到满足质量要求或达到迭代上限。这种迭代合成方式显著提升了SVG在网格拓扑、箭头端点、文本标签等方面与原始栅格图的一致性。
新基准:CRAFTBENCH
为了全面评估系统在多样化场景下的能力,研究团队构建了一个新的基准测试集——CRAFTBENCH。它包含了来自18个研究领域、获奖级会议海报和研究博客的279个样本,涵盖了三种图表类型和四种输入条件。

图3:CRAFTBENCH代表性样本。每列展示一种任务类型:(a)文本到图像,(b)掩码补全,(c)关键元素组合,(d)草图条件生成。
四种输入条件包括:
文本到图像:仅根据文本描述生成图表。 掩码补全:给定一张部分区域被遮盖的图表,生成缺失的内容。 关键元素组合:给定一组代表图表空间逻辑的图标级元素(已去除文本和连接线),生成完整的图表。 草图条件生成:根据一张手绘或AI生成的粗略草图,生成精炼的出版级图表。
CRAFTBENCH的构建经过了多阶段的严格筛选和人工质量标注,确保了评估的全面性和可靠性。
实验结果:全面领先,机制有效
团队在PaperBanana-Bench和CRAFTBENCH两个基准上对CRAFTER进行了全面评估。对比方法包括开源的图像生成模型、闭源的商业模型以及现有的智能体流程框架。

主要结果显示,无论使用何种图像生成后端,CRAFTER在两个基准上的整体得分均全面领先。在CRAFTBENCH上,CRAFTER相比其使用的图像生成后端(Nano Banana 2),整体性能提升了30.3个百分点。与当前最强的智能体基线相比,CRAFTER在PaperBanana-Bench上领先16.61个百分点,在更全面的CRAFTBENCH上领先优势扩大到22.20个百分点。更重要的是,CRAFTER在所有质量维度和所有任务类型上均一致地超越了其基础生成器,而其他基线方法则表现出明显的泛化能力不足。
消融实验验证了CRAFTER三大核心机制各自的有效性。移除“多样性驱动的方案探索”会导致整体得分下降8.56分;移除“结构化纠正层”下降8.90分;移除“优化循环”和“诊断性评审者”分别下降5.48分和5.04分。这证实了每个组件都是提升最终输出质量不可或缺的一环。

可编辑输出质量方面,CRAFTEDITOR在将CRAFTER生成的栅格图转换为可编辑SVG的任务上,同样超越了所有基线方法。在一个由三个视觉语言模型组成的评审团评估中,CRAFTEDITOR在位置、颜色、文本、图标、箭头、样式和整体七个维度上均取得最高分。消融实验表明,迭代合成机制对提升质量贡献最大,而智能体清理阶段则对干净提取重叠元素至关重要。
总结与展望
CRAFTER和CRAFTEDITOR代表了一种解决科学图表生成问题的新范式:不再孤立地追求生成模型的极限性能,而是通过一个精心设计的智能体协同框架,对现有生成能力进行有效的规划、验证和迭代优化。这种方法不仅显著提升了图表生成的质量和可靠性,还首次实现了从多样化输入到可编辑矢量输出的端到端工作流。
由于该框架与底层的生成器是解耦的,未来更强大的图像生成或代码生成模型可以无缝接入,进一步提升系统能力。研究团队也指出,当前方法在计算成本和延迟上仍有优化空间,且基准测试集在信息图方面的覆盖可以进一步扩展。这项工作为结构化输出生成领域提供了一个可借鉴的通用框架思路,其潜力有望延伸到科学绘图之外的更多需要精确、可靠、可编辑输出的应用场景。
> 本文由 Intern-S2 等 AI 生成,机智流编辑部校对
-- 完 --
机智流推荐阅读:
1.
2.
3.
4.
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 lc|LangChain 技术交流群 code | AI Coding 交流群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 推理 | AI 推理框架交流群 智能体 | Agent 技术交流群