谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与

量子位 2026-04-24 16:00
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

一个Banana不够,再来一个!

谷歌DeepMind以Nano Banana Pro为底座,最新发布通用版香蕉通用多模态视觉大模型Vision Banana——

何恺明、谢赛宁参与,证明图像生成预训练,可以成为通用视觉学习的统一范式

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图1

一个通用模型,零样本迁移下,击败SAM 3、Depth Anything 3等专用模型,分割、深度、法线核心任务刷新多项SOTA。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图2

就像LLM用文本生成统一所有NLP任务一样,视觉领域的LLM时刻,可能真的来了。

谢赛宁表示,作为一个从像素级标注任务(例如分割、边缘、深度或表面法线)开始接触计算机视觉的人,看到这种成果会真切感受到:

领域正发生重大变革,Vision Banana将彻底改写这类视觉问题的解决方式。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图3

用 “指令微调 + 生成接口” 统一全视觉任务

文生图、图像编辑等生成模型一路狂飙,画质越来越逼真、语义越来越精致,但学界始终悬着一个问题:

能精准创造视觉内容的模型,真的懂视觉世界吗?

这就好比NLP领域早期的质疑:能生成文本的模型,真的理解语言吗?

AI发展到现在,LLM用事实证明,生成预训练本身就是最好的理解训练。

语言模型在生成文本的过程中,自然学会了语法、语义、推理、知识。

那视觉领域呢?

过去的视觉研究,大多走判别式学习路线,监督判别学习、对比学习、自举学习、自编码……几乎都不属于生成式建模。

分类、检测、分割、深度估计各搞一套架构、各用一批数据,模型专精但不通用。

而Vision Banana的回答是:

图像生成模型早就悄悄学会了理解视觉世界,只是没人教它怎么把理解结果输出出来。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图4

它彻底换了一条路:用生成式思路,把所有视觉感知任务统一成一件事。

Vision Banana以谷歌自研生成基座Nano Banana Pro为底座,仅用轻量指令微调,把分割、深度估计、表面法线等所有感知任务,统一成生成可解码RGB图像这一件事。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图5

具体实现分三步。

第一步,用自然语言提示指定输出格式。

Vision Banana继承了生成模型的多模态能力,能轻松听懂人话。

比如直接告诉它“猫用黄色 (255,255,0) 标记,背景用黑色”,或是给一段JSON颜色映射,它都能准确理解并执行。

这个能力直接来自Nano Banana Pro的多模态理解,生成模型在训练过程中学会了关联文本和图像,现在只需要教它把理解结果也输出成图像。

第二步,设计可反向解码的RGB编码。

所有感知结果(分割、深度、法线)都被编码成一张普通RGB图,而且编码是可逆的。

法线估计最简单,单位向量(−1到1)直接线性映射到RGB(0到255)。

语义分割更直观,每个类别指定一个颜色,模型生成涂色图,解码时通过颜色匹配聚类得到mask。

实例分割稍有不同,因为实例数量未知,无法在提示中预先分配颜色。Vision Banana采用逐类推理策略,每次只分割一个类别,模型自动给不同实例分配不同颜色。

最精巧的是深度估计,把无限大的深度值,先压缩映射到0~1区间,再对应到RGB颜色,做到一个深度值对应唯一颜色,一个颜色也能精准还原回深度值,没有信息损失。

第三步,轻量指令微调。

只需要在Nano Banana Pro原本的训练数据里,少量混入视觉任务数据,就能完成对齐。

这种轻量微调带来三大优势:

在官方给出的实例中可以看出,模型通过文本提示为不同物体设定专属颜色编码,依靠色彩映射规则,生成对应的语义分割可视化图像。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图6

那为什么这个思路有效呢?

就像生成式预训练在生成文本的过程中学会了语法和推理,图像生成模型在生成像素的过程中学会了物体边界、深度关系、几何结构。

这些表征一直存在于模型内部,只是没有合适的接口释放出来。

更重要的是,生成建模天然解决多模态问题。

很多视觉任务是一对多的。同一个输入,可能有多种合理的输出。

比如深度估计,一个像素的深度有内在模糊性。判别式模型为了避免输出模糊,需要设计专门的架构和loss。

SAM甚至只对一个mask施加loss,忽略其他候选。

而生成模型天然学习完整的数据分布。

LLM用文本生成统一了理解、翻译、摘要、推理等所有NLP任务。

Vision Banana 则证明:图像生成,可以成为视觉领域的统一接口。

2D+3D通吃

这套极简方案在权威基准上全面碾压专业模型,且全程零样本迁移——

训练时完全不碰测试集数据,深度估计连相机内参都不用。

首先,在2D理解上,语义分割mIoU 0.699,超越SAM 3;指代分割双双刷新零样本SOTA;实例分割与DINO-X持平,处于第一梯队。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图7

然后,在3D理解上,Vision Banana打出了更让人意外的成绩,深度估计、法线估计双双刷新SOTA。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图8

这里有个关键细节:Vision Banana训练和推理都不需要相机内参。

所有SOTA深度模型,DepthLM、Depth Anything V3、Depth Pro、UniK3D、MoGe-2至少在训练时需要相机内参。

而Vision Banana纯靠视觉先验。

轻量微调完全没丢生成能力。

GenAI-Bench上对Nano Banana Pro胜率53.5%,ImgEdit上胜率47.8%。

Vision Banana在保持原生成模型能力的同时,把感知任务也吃下了。

一个模型,生成+理解,全都要。

就像NLP领域的生成式预训练路线改变了所有语言任务的实现方式,视觉领域可能正在迎来同样的范式转变。

团队介绍

Vision Banana整项工作共有25位研究者共同参与。

由Valentin Gabeur、Shangbang Long、Songyou Peng三位核心作者共同领衔。

Valentin Gabeur,Google DeepMind研究员,专攻多模态学习。Meta AI博士后出身,也是SAM 2的共同一作。

Inria博士,曾拿过CVPR 2020 Video Pentathlon挑战赛冠军。

有意思的是,他转行AI前是机械工程师,在工业自动化领域干了6年。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图9

Shangbang Long,北京大学校友,Google DeepMind研究员,专攻识别、检测、分割。

CMU硕士出身,参与了Gemini Robotics、Genie 2等核心项目。

深耕OCR与文档场景理解,代表作TextSnake在场景文本检测领域极具影响力。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图10

Songyou Peng(彭崧猷),西安交通大学校友,Google DeepMind研究科学家,长期深耕3D视觉方向。

负责了Gemini和Nano Banana多模态理解和生成,在NeRF、三维重建等领域产出多项高影响力成果。

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图11

此外,何恺明、谢赛宁作为Leadership Sponsors参与支持这项工作。

项目地址:https://vision-banana.github.io/
论文地址:https://arxiv.org/abs/2604.20329
参考链接:https://x.com/sainingxie/status/2047339789926429166

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


🔹 谁会代表2026年的AI?

龙虾爆火,带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品,或许不止于此。

如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与图12

一键关注 👇 点亮星标
科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
英伟达十连阳市值激增超5万亿,AI需求驱动芯片巨头持续领跑
腾讯百度投资,上海算力芯片独角兽赴港IPO
贝索斯投资的电动皮卡新势力Slate Auto崭露头角,计划2026年冲刺量产
中兴微荣获2025中国互联网发展创新与投资大赛(深圳)一等奖
红杉资本豪掷70亿美元加码AI投资,聚焦美欧后期阶段布局
让AI设计芯片,Cognichip获 6000 万美元投资!
Synopsys 获巨额投资!
全球第一!工业软件巨头获百亿重磅投资!对决西门子、Cadence!
汽车早餐 | 江淮汽车公告称拟投资引望;红旗或利用Stellantis产能进入西班牙;龚进峰任中汽中心总经理
英伟达20亿美元投资Marvell:对人工智能和光互连技术发展有何战略意义?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号