清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑

清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑图1

在科研论文的撰写过程中，制作一张清晰、美观、符合出版规范的图表，往往是研究者们耗时耗力的环节。从构思布局、绘制元素、调整样式到最终排版，每一步都需要精细的手工操作。尽管文本生成图像技术近年来取得了显著进展，但在科学插图这个高度结构化的领域，现有工具仍存在明显短板：要么只能处理单一类型的图表，要么生成的静态图片无法进行局部修改，这与研究者实际工作中多样化的需求和迭代式的创作流程相去甚远。

针对这一痛点，来自伊利诺伊大学厄巴纳-香槟分校、清华大学和北京大学的研究团队提出了一种全新的解决方案。他们不再追求一个更强大的单一图像生成模型，而是设计了一个名为 CRAFTER 的“智能体协同框架”。这个框架像一个“智能助手”，能够协调多个专门化的智能体，共同完成从多样化输入（如文本、草图、参考图）生成高质量科学图表，并进一步将其转换为可编辑的矢量文件的全流程工作。

清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑图3

论文标题：CRAFTER: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
论文链接：https://arxiv.org/pdf/2605.30611
开源仓库：https://github.com/HaozheZhao/Crafter

研究背景：科学图表生成的现实困境

科学图表与普通自然图像有着本质区别。它们是由离散的语义组件（如带标签的方框、方向箭头、图标、注释等）按照精确的空间关系组合而成的结构化构图。每个组件都承载着特定的科学含义。现有的AI生成方法在应对这种高度结构化的布局时，常常会产出一些局部错误，例如标签文字混乱、连接线错位、关键组件缺失或重复等。

更关键的是，当前的主流方法存在两个根本性的局限。

首先，系统适用范围狭窄。实践中，研究者需要制作多种类型的图表，包括学术方法图、会议海报和信息图，并且他们很少仅从纯文本描述开始创作，而是基于草图、部分布局或参考图标进行迭代。然而，现有方法大多只专注于“文本到图像”这一种模式，无法适应多样化的图表类型和输入条件。

其次，输出结果难以编辑。基于栅格的生成器产生的是静态图片，研究者无法轻松地调整单个标签、更换配色方案或重新排列组件。虽然有些方法通过生成代码（如TikZ）来输出可编辑的图表，但它们往往缺乏图标和风格化布局的视觉丰富性。

因此，一个完整的科学图表生成流程，必须超越单纯的图像生成，能够产出结构上可编辑的输出，并适应研究人员真实的工作场景。

核心创新：从“更强引擎”到“更好框架”

研究团队意识到，解决科学图表生成的可靠性问题，需要的不是一个更强大的生成“引擎”，而是一个更好的“框架”来协调和引导这个引擎。他们将这个框架称为“智能体协同框架”，其核心思想是：在现有的生成器（无论是图像生成器还是代码生成器）之上，构建一个协调层。这个协调层负责规划、验证和结构化修订，通过检测并修正生成器的失败模式来提升整体输出质量，而无需修改生成器本身。

清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑图4

图1：CRAFTER架构。给定上下文和文档，意图推理器生成初始规范S0。规划生成器D提出K个候选方案；图像生成后端E渲染每个方案；评审者V给出诊断性反馈；规范修订器R将结构化编辑写入S；收敛判断器决定接受、继续优化或回退到最终输出。

CRAFTER框架围绕一个不断演进的、结构化的“图表规范”展开，这个规范作为所有智能体共享的“记忆”。整个流程由五个协同工作的智能体角色驱动：

意图推理器：分析输入（如论文文本、参考图像、草图）和用户指令，推断图表要传达的核心意图和所需的视觉元素，生成初始的规范草案。
规划生成器：基于初始规范，并行提出多种不同的视觉布局方案。
图像生成后端：一个现成的图像生成模型，负责将选定的布局方案渲染成栅格图。
评审者：评估生成的图像，不仅给出分数，更重要的是提供“诊断性”反馈，明确指出哪些维度（如内容准确性、布局连贯性、文字可读性）存在问题，并给出具体的修改建议。
规范修订器：根据评审者的诊断反馈，对共享的图表规范进行“结构化编辑”（例如，添加布局约束、禁止某类元素、调整指定组件大小），而不是简单地往生成提示词里追加一段自由文本。

一个收敛判断器负责控制整个循环，在每一轮后决定是接受当前结果、继续优化，还是回退到之前的最佳版本。这种设计带来了两个关键优势：生成后端是可插拔的，所有任务特定的行为都封装在各个智能体的提示词中，因此同一个框架可以轻松适应不同的图表类型和输入条件，而无需改变架构；修订是结构化的，避免了传统自由文本迭代中常见的指令矛盾问题，使得修正过程更加稳健和一致。

三大机制：应对结构化挑战的利器

为了应对科学图表生成中的三大技术难点（复杂布局下的高输出方差、自由文本修正导致的提示词退化、缺乏结构化的纠正反馈），CRAFTER框架内置了三大核心机制。

多样性驱动的方案探索：现代图像生成器在生成复杂、结构化的图表时，即使使用相同的提示词，不同随机种子下产生的布局和构图也可能有质的差异。CRAFTER将这种方差视为一种搜索资源。规划生成器会并行提出多个（K=3）视觉方案，每个方案代表一种不同的视觉框架（例如横幅布局或多列网格）。图像生成后端并行渲染所有方案，收敛判断器从中选出最佳候选作为后续细化的起点。这种方法能在投入大量细化预算之前，就避免掉根本性不合适的构图选择。

结构化纠正层：传统的基于自由文本的迭代修正会迅速退化，因为连续追加的自然语言指令容易引入矛盾（例如先要求“放大标题”，后又要求“减少空白”），生成器会默默地吸收这些矛盾，导致输出质量在无声无息中下降。CRAFTER的结构化纠正层用对共享规范的“类型化编辑”取代了自由文本的累积。每一轮，规范修订器都将评审者的诊断转换为一系列结构化操作（如“将组件A的字体大小设置为14pt”、“禁止使用深色背景”），直接修改规范本身。下一轮的提示词基于这个更新后、内部一致的规范重新组装，从而避免了指令冲突。

基于诊断性评审的“验证-优化”循环：即使选择了合适的方案并拥有不断完善的规范，第一轮输出通常仍包含局部错误。CRAFTER的评审者会发出包含多维度评分、已识别缺陷和具体修正建议的“诊断性”反馈，而非一个简单的总分。随后，系统进入一个最多进行三轮的优化循环，根据反馈持续修正规范并重新生成。同时，系统会保留“迄今最佳”的检查点，防止优化过程出现非单调性的质量回退。

从静态图片到可编辑矢量图：CRAFTEDITOR

生成高质量的栅格图只是第一步，科研工作流更需要能够进行元素级编辑（如替换图标、补全图表）的矢量文件。为此，团队基于同样的“智能体协同框架”理念，开发了 CRAFTEDITOR，专门用于将栅格科学图表转换为可编辑的SVG（可缩放矢量图形）文件。

清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑图5

图2：CRAFTEDITOR架构。包含三个阶段：1. 提取：通过指令驱动的画布清理，分离出每个图形元素。2. 处理：为每个元素添加描述、定位并分类。3. 合成：将元素组装成SVG骨架，并通过混合评审器进行迭代优化。

CRAFTEDITOR的工作流程分为三个阶段：

提取阶段：科学图表（尤其是包含25到50个视觉元素的会议海报）通常元素重叠、文本混杂，传统分割方法难以处理。CRAFTEDITOR采用指令驱动的清理循环，由一个视觉语言智能体分析输入图片并制定“保留/删除”计划，再由一个可指令的图像编辑器在像素级执行该计划，经过多轮验证和优化，最终得到干净的、分离的单元素素材。
处理阶段：为每个提取出的元素素材生成描述文字，进行视觉定位，并分类为矢量或栅格类型。
合成阶段：这是核心的“框架”应用环节。一个智能体生成SVG骨架，另一个智能体将素材注入骨架中的占位符。随后，一个混合评审器（结合了视觉语言模型的全局评估和程序化检查器的结构化属性审计）对结果进行评估并给出反馈。系统进入迭代优化循环，不断修正SVG源码，直到满足质量要求或达到迭代上限。这种迭代合成方式显著提升了SVG在网格拓扑、箭头端点、文本标签等方面与原始栅格图的一致性。

新基准：CRAFTBENCH

为了全面评估系统在多样化场景下的能力，研究团队构建了一个新的基准测试集——CRAFTBENCH。它包含了来自18个研究领域、获奖级会议海报和研究博客的279个样本，涵盖了三种图表类型和四种输入条件。

清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑图6

图3：CRAFTBENCH代表性样本。每列展示一种任务类型：(a)文本到图像，(b)掩码补全，(c)关键元素组合，(d)草图条件生成。

四种输入条件包括：

文本到图像：仅根据文本描述生成图表。
掩码补全：给定一张部分区域被遮盖的图表，生成缺失的内容。
关键元素组合：给定一组代表图表空间逻辑的图标级元素（已去除文本和连接线），生成完整的图表。
草图条件生成：根据一张手绘或AI生成的粗略草图，生成精炼的出版级图表。

CRAFTBENCH的构建经过了多阶段的严格筛选和人工质量标注，确保了评估的全面性和可靠性。

实验结果：全面领先，机制有效

团队在PaperBanana-Bench和CRAFTBENCH两个基准上对CRAFTER进行了全面评估。对比方法包括开源的图像生成模型、闭源的商业模型以及现有的智能体流程框架。

清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑图7

主要结果显示，无论使用何种图像生成后端，CRAFTER在两个基准上的整体得分均全面领先。在CRAFTBENCH上，CRAFTER相比其使用的图像生成后端（Nano Banana 2），整体性能提升了30.3个百分点。与当前最强的智能体基线相比，CRAFTER在PaperBanana-Bench上领先16.61个百分点，在更全面的CRAFTBENCH上领先优势扩大到22.20个百分点。更重要的是，CRAFTER在所有质量维度和所有任务类型上均一致地超越了其基础生成器，而其他基线方法则表现出明显的泛化能力不足。

消融实验验证了CRAFTER三大核心机制各自的有效性。移除“多样性驱动的方案探索”会导致整体得分下降8.56分；移除“结构化纠正层”下降8.90分；移除“优化循环”和“诊断性评审者”分别下降5.48分和5.04分。这证实了每个组件都是提升最终输出质量不可或缺的一环。

清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑图8

可编辑输出质量方面，CRAFTEDITOR在将CRAFTER生成的栅格图转换为可编辑SVG的任务上，同样超越了所有基线方法。在一个由三个视觉语言模型组成的评审团评估中，CRAFTEDITOR在位置、颜色、文本、图标、箭头、样式和整体七个维度上均取得最高分。消融实验表明，迭代合成机制对提升质量贡献最大，而智能体清理阶段则对干净提取重叠元素至关重要。

总结与展望

CRAFTER和CRAFTEDITOR代表了一种解决科学图表生成问题的新范式：不再孤立地追求生成模型的极限性能，而是通过一个精心设计的智能体协同框架，对现有生成能力进行有效的规划、验证和迭代优化。这种方法不仅显著提升了图表生成的质量和可靠性，还首次实现了从多样化输入到可编辑矢量输出的端到端工作流。

由于该框架与底层的生成器是解耦的，未来更强大的图像生成或代码生成模型可以无缝接入，进一步提升系统能力。研究团队也指出，当前方法在计算成本和延迟上仍有优化空间，且基准测试集在信息图方面的覆盖可以进一步扩展。这项工作为结构化输出生成领域提供了一个可借鉴的通用框架思路，其潜力有望延伸到科学绘图之外的更多需要精确、可靠、可编辑输出的应用场景。

> 本文由 Intern-S2 等 AI 生成，机智流编辑部校对

-- 完 --

加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。

机智流推荐阅读：

1. ‍

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有与、、、、等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
lc｜LangChain 技术交流群
code | AI Coding 交流群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
推理 | AI 推理框架交流群
智能体 | Agent 技术交流群