谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与

闻乐发自凹非寺
量子位 | 公众号 QbitAI

一个Banana不够，再来一个！

谷歌DeepMind以Nano Banana Pro为底座，最新发布~~通用版香蕉~~通用多模态视觉大模型Vision Banana——

何恺明、谢赛宁参与，证明图像生成预训练，可以成为通用视觉学习的统一范式。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图1

一个通用模型，零样本迁移下，击败SAM 3、Depth Anything 3等专用模型，分割、深度、法线核心任务刷新多项SOTA。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图2

就像LLM用文本生成统一所有NLP任务一样，视觉领域的LLM时刻，可能真的来了。

谢赛宁表示，作为一个从像素级标注任务（例如分割、边缘、深度或表面法线）开始接触计算机视觉的人，看到这种成果会真切感受到：

领域正发生重大变革，Vision Banana将彻底改写这类视觉问题的解决方式。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图3

用 “指令微调 + 生成接口” 统一全视觉任务

文生图、图像编辑等生成模型一路狂飙，画质越来越逼真、语义越来越精致，但学界始终悬着一个问题：

能精准创造视觉内容的模型，真的懂视觉世界吗？

这就好比NLP领域早期的质疑：能生成文本的模型，真的理解语言吗？

AI发展到现在，LLM用事实证明，生成预训练本身就是最好的理解训练。

语言模型在生成文本的过程中，自然学会了语法、语义、推理、知识。

那视觉领域呢？

过去的视觉研究，大多走判别式学习路线，监督判别学习、对比学习、自举学习、自编码……几乎都不属于生成式建模。

分类、检测、分割、深度估计各搞一套架构、各用一批数据，模型专精但不通用。

而Vision Banana的回答是：

图像生成模型早就悄悄学会了理解视觉世界，只是没人教它怎么把理解结果输出出来。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图4

它彻底换了一条路：用生成式思路，把所有视觉感知任务统一成一件事。

Vision Banana以谷歌自研生成基座Nano Banana Pro为底座，仅用轻量指令微调，把分割、深度估计、表面法线等所有感知任务，统一成生成可解码RGB图像这一件事。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图5

具体实现分三步。

第一步，用自然语言提示指定输出格式。

Vision Banana继承了生成模型的多模态能力，能轻松听懂人话。

比如直接告诉它“猫用黄色 (255,255,0) 标记，背景用黑色”，或是给一段JSON颜色映射，它都能准确理解并执行。

这个能力直接来自Nano Banana Pro的多模态理解，生成模型在训练过程中学会了关联文本和图像，现在只需要教它把理解结果也输出成图像。

第二步，设计可反向解码的RGB编码。

所有感知结果（分割、深度、法线）都被编码成一张普通RGB图，而且编码是可逆的。

法线估计最简单，单位向量(−1到1)直接线性映射到RGB(0到255)。

语义分割更直观，每个类别指定一个颜色，模型生成涂色图，解码时通过颜色匹配聚类得到mask。

实例分割稍有不同，因为实例数量未知，无法在提示中预先分配颜色。Vision Banana采用逐类推理策略，每次只分割一个类别，模型自动给不同实例分配不同颜色。

最精巧的是深度估计，把无限大的深度值，先压缩映射到0~1区间，再对应到RGB颜色，做到一个深度值对应唯一颜色，一个颜色也能精准还原回深度值，没有信息损失。

第三步，轻量指令微调。

只需要在Nano Banana Pro原本的训练数据里，少量混入视觉任务数据，就能完成对齐。

这种轻量微调带来三大优势：

一套权重通吃所有任务，只需要换指令就能切换任务；
不需要大量新增标注数据，训练成本极低；
完全不损失原本的文生图、图像编辑能力。

在官方给出的实例中可以看出，模型通过文本提示为不同物体设定专属颜色编码，依靠色彩映射规则，生成对应的语义分割可视化图像。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图6

那为什么这个思路有效呢？

就像生成式预训练在生成文本的过程中学会了语法和推理，图像生成模型在生成像素的过程中学会了物体边界、深度关系、几何结构。

这些表征一直存在于模型内部，只是没有合适的接口释放出来。

更重要的是，生成建模天然解决多模态问题。

很多视觉任务是一对多的。同一个输入，可能有多种合理的输出。

比如深度估计，一个像素的深度有内在模糊性。判别式模型为了避免输出模糊，需要设计专门的架构和loss。

SAM甚至只对一个mask施加loss，忽略其他候选。

而生成模型天然学习完整的数据分布。

LLM用文本生成统一了理解、翻译、摘要、推理等所有NLP任务。

Vision Banana 则证明：图像生成，可以成为视觉领域的统一接口。

2D+3D通吃

这套极简方案在权威基准上全面碾压专业模型，且全程零样本迁移——

训练时完全不碰测试集数据，深度估计连相机内参都不用。

首先，在2D理解上，语义分割mIoU 0.699，超越SAM 3；指代分割双双刷新零样本SOTA；实例分割与DINO-X持平，处于第一梯队。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图7

然后，在3D理解上，Vision Banana打出了更让人意外的成绩，深度估计、法线估计双双刷新SOTA。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图8

这里有个关键细节：Vision Banana训练和推理都不需要相机内参。

所有SOTA深度模型，DepthLM、Depth Anything V3、Depth Pro、UniK3D、MoGe-2至少在训练时需要相机内参。

而Vision Banana纯靠视觉先验。

轻量微调完全没丢生成能力。

GenAI-Bench上对Nano Banana Pro胜率53.5%，ImgEdit上胜率47.8%。

Vision Banana在保持原生成模型能力的同时，把感知任务也吃下了。

一个模型，生成+理解，全都要。

就像NLP领域的生成式预训练路线改变了所有语言任务的实现方式，视觉领域可能正在迎来同样的范式转变。

团队介绍

Vision Banana整项工作共有25位研究者共同参与。

由Valentin Gabeur、Shangbang Long、Songyou Peng三位核心作者共同领衔。

Valentin Gabeur，Google DeepMind研究员，专攻多模态学习。Meta AI博士后出身，也是SAM 2的共同一作。

Inria博士，曾拿过CVPR 2020 Video Pentathlon挑战赛冠军。

有意思的是，他转行AI前是机械工程师，在工业自动化领域干了6年。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图9

Shangbang Long，北京大学校友，Google DeepMind研究员，专攻识别、检测、分割。

CMU硕士出身，参与了Gemini Robotics、Genie 2等核心项目。

深耕OCR与文档场景理解，代表作TextSnake在场景文本检测领域极具影响力。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图10

Songyou Peng（彭崧猷），西安交通大学校友，Google DeepMind研究科学家，长期深耕3D视觉方向。

负责了Gemini和Nano Banana多模态理解和生成，在NeRF、三维重建等领域产出多项高影响力成果。

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图11

此外，何恺明、谢赛宁作为Leadership Sponsors参与支持这项工作。

项目地址：https://vision-banana.github.io/
论文地址：https://arxiv.org/abs/2604.20329
参考链接：https://x.com/sainingxie/status/2047339789926429166

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🔹 谁会代表2026年的AI？

龙虾爆火，带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品，或许不止于此。

如果你正在做，或见证着这些变化，欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与图12

一键关注 👇 点亮星标

科技前沿进展每日见

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

用 “指令微调 + 生成接口” 统一全视觉任务

2D+3D通吃

团队介绍

闻乐发自凹非寺
量子位 | 公众号 QbitAI