谷歌做了个论文专用版nano banana!顶会级Figure直出

机器之心 2026-02-05 12:32
谷歌做了个论文专用版nano banana!顶会级Figure直出图1
编辑|SIA

你负责写方法,AI负责画 Figure。 科研打工人,终于等来画图解放日

 

还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗?

 

一张 Figure 2,动辄几个小时,严重的甚至能耗上几天,科研人的隐藏副本不是实验,而是画图。

 

既要忠于论文原意,又得暗暗符合顶会那套心照不宣的学术审美:颜色不能土,布局不能乱,箭头更不能连错。

 

看起来只是一张图,实际上是美学、逻辑和耐心的三重折磨。

 

那么,问题来了:现在的大模型已经能写论文、跑实验、改代码,为什么偏偏搞不定这些学术插图?有人可能会问:DALL·E、基础 VLM 不行吗?

 

答案是:真不行。

 

它们画出来的图往往是:模块和文字对不上、字体直接乱码、箭头逻辑错误。图是好看,但不中用啊。

 

于是,一个狠角色出现了:PaperBanana 🍌

 

来自北大 + Google Cloud AI Research 的团队,目标很简单也很狂:你写方法,AI 画 Figure,水准呢?直接投顶会的那种。

 

科研打工人,终于等到了画图解放日

 

谷歌做了个论文专用版nano banana!顶会级Figure直出图2
谷歌做了个论文专用版nano banana!顶会级Figure直出图3
谷歌做了个论文专用版nano banana!顶会级Figure直出图4
谷歌做了个论文专用版nano banana!顶会级Figure直出图5

 

来看效果成色。

 

PaperBanana 展示了解决两类学术插图的能力:

 

第一类,是论文方法流程图与模型结构示意图,用来说明算法如何运作(左);第二类,是统计图表,用来表达实验结果与数据对比(右边)。

 

谷歌做了个论文专用版nano banana!顶会级Figure直出图6左边是方法框图(Methodology Diagrams),右边是统计图(Statistical Plots)

 

与以往只会画图像的生成模型不同,PaperBanana 强调两点:不是只要画得好看,而是必须画得正确

 

它要保证:模块之间的逻辑关系不出错、数据表达符合科研规范、图可以直接服务论文叙事,而不是装饰。

 

研究指出,PaperBanana 可以覆盖多种常见学术插图类型,包括方法流程图、模型结构示意图、概念性框架图,以及通过代码驱动生成的高精度统计图。

 

PaperBanana 不仅能从零生成,还能润色你现有的丑图。

 

给它一张草图或初版框图,它负责自动美化、重排布局、统一风格,让它更像顶会论文里的标准图形

 

更直观的对比——

 

左侧是手工绘制的插图,右侧是 PaperBanana 风格增强(Style Enhanced)后的版本。

 

谷歌做了个论文专用版nano banana!顶会级Figure直出图7

这些示例覆盖了多个典型科研场景,包括 Transformer 与不同 LayerNorm 变体的对比示意、工程流程与三维建模管线的系统框架,以及强化学习和表示学习中抽象几何关系的表达。它们的共同特点在于逻辑复杂、元素密集,对人工排版提出了极高要求,也正是科研人员最容易在“画图”上消耗大量时间与精力的部分。

 

语义结构上一致,但视觉呈现,完全不同。

 

原始图信息完整,却给人一种能看懂,但不好看的感觉:布局略显松散,配色偏向单一,不同模块之间的层级关系也不够清晰。

 

PaperBanana 润色增后,图中的逻辑被重新梳理进一套更规范的视觉体系之中。

 

不同功能模块通过颜色进行区分,虚线和分区框用来强化层次结构,箭头的走向也更加明确,整体观感明显更接近顶会论文中常见的标准范式。

 

再看下面的图例,同一张图对比,高低立判。

 

人类画的图,对,但不一定好看。

 

未经调教的原始模型生成(Nano-Banana-Pro),画出来但难读。

 

PaperBanana 真正做到了画清楚、讲明白,也更符合顶会审美的论文级插图:配色更现代统一,信息更精炼,模块分区更清晰。

 

谷歌做了个论文专用版nano banana!顶会级Figure直出图8

 

那么,它是如何做到这一点的?

 

PaperBanana 画论文图变成了一条由多智能体协作完成的流水线。

 

系统先检索参考范例,再规划结构化描述,并在审美规范约束下生成初稿;

 

随后由视觉代理将文本描述转化为图像或代码绘图,评论代理不断对照原始论文内容进行纠错与打磨。

 

经过多轮迭代后,输出的不再是普通示意图,而是一张同时满足语义正确性与顶会审美标准的论文级插图。

 

这不是简单的作图自动化,而是一种科研表达方式的自动规范化。

 

谷歌做了个论文专用版nano banana!顶会级Figure直出图9

 

研究人员还顺带对比了两种路线:直接让模型画图 VS 让模型写代码画图

 

结论很扎心:AI 直接画出来的图虽然精美,但经常在数字上胡说八道。

 

目前最靠谱的方式还是:AI 写绘图代码(基于 Gemini-3-Pro),再生成统计图。

 

谷歌做了个论文专用版nano banana!顶会级Figure直出图10

 

这只是开始。类似工具已经开始出现,比如:Claude Scientific Writer,集成论文写作 + 插图 + 图表生成。

 

未来科研可能变成这样:你不用再在 PPT 里对齐箭头、调颜色、拖文本框到凌晨三点,而是把更多时间留给真正重要的事情。

 

参考链接

https://dwzhu-pku.github.io/PaperBanana/

https://github.com/K-Dense-AI/claude-scientific-writer

 

© THE END 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差
Anthropic 对世界的警告
新品 | 小米终端将实现自研芯片;荣耀 Magic8 家族亮相
Anthropic、OpenAI与SpaceX启动IPO筹备,2026或迎科技上市超级周期
刚刚, Claude Opus 4.6登顶编程之王! 杀入Office全家桶, 15亿打工人变天
Kimi海外收入已超国内,要做「Anthropic + Manus」丨36氪独家
方形SiC衬底?国产厂商新突破
从 2D 感知到 3D 预测:GeoPredict 重构VLA模型的几何推理能力
事关存储器、IC设计等领域,中国半导体技术多点突破
1.2s极速抓取+毫米级标定!NexusPickit-S1!从零搭建一套无序抓取软件[提供源码+视频教程+答疑]
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号