神秘「香蕉」AI 火爆海外，10 轮极限测试后，我相信 P 图这个词已经过时了

上半年，大家还在为 4o 的「吉卜力风生图」刷屏惊叹。

最近，一个神秘代号 nano-banana的新模型在社交媒体上爆火，它不是拼画质取胜，而是凭借前所未有的图像编辑能力，让网友直呼「这才是真正的 AI P图」。

有多强呢，过去我们印象中的 AI 编辑图片，可能用最多的就是 AI 消除，抹掉照片里面的路人；或者 AI 抠图，把照片的主体抠出来然后复制到其他背景上。

但现在是能直接生成一张完全看不出编辑痕迹的图片，图片里面的人物、背景、甚至小到一个字母，都可以自由的修改，且看不出一点 AI 味。

下面几张图片是我们从 X 上找的一些使用 nano-banana 编辑的实例，我只想说，它能火起来，真的值得。

图片来源：X@arrakis_ai

这个网友提供了上方只显示侧脸的女生，同时输入提示词，「创建一张有人直视前方照片。」

而下方的这张 OUTPUT 输出图片，就是使用 nano-banana 模型生成的。这个输出效果，完全可以说是同一时间拿手机另外拍的一张照片。

还有网友分享添加这两张图片并输入提示词，「让他们自拍」。

图片来源：X@RetropunkAI

和你唯一的合照，终于不用只是毕业照了。Billie 的大金链子和耳环、以及刘海等信息完全没丢失，Michael 的脸从满是噪点的失真，到自拍合影里，与 Billie 一样有着真实、清晰的皮肤质感。

在 X 上网友们反复安利这个图像编辑模型，从这些截图分享里面，我们大致总结了 nano-banana 最让人惊叹的几点特质。

角色一致性极强：无论换背景还是换表情，都不会换脸，甚至嘴角弧度都能保持。

光影逻辑合理：不像滤镜贴图，它能重新计算光源和阴影，让场景符合物理规律。

照片级逼真：几乎看不出 AI 痕迹，生成的效果像是「同一时刻另一台手机拍下的照片」。

风格转换自然：从老照片复原到素描、水彩、卡通，都能保持主体特征不变。

首先，跟之前的图像编辑模型有着质的不同，就是 nano-banana 在转换图像的过程中，基本上能够保持整个照片一致的色调和照片内容，不会自己额外生成别的东西。

风格保持高度一致，输入右边两张图，得到左边的产品广告图。图片来源：X@Dari_Designs

除了色调和照片内容，更重要的是保持人物角色的统一。不管是更换背景、还是让某个人的表情修改成微笑，nano-banana 生成的人物五官和神态几乎不会出现换脸的情况，连嘴角的弧度都能保持稳定。

举个例子，当我们使用固定的一个人物角色创建图片的时候，这个角色可以在不同的场景下保持一致。

原图是左边，输入提示词制定背景为埃菲尔铁塔得到右图。图片来源：X@zan_sihay

由于能保持与输入图片高度一致的色调、氛围、场景和人物主体等，还有网友通过 nano-banana 将整个场景转变为一个新的故事。

原图在左上角，先是输入提示词让她们坐在台球桌边上，然后让她们开始打台球，形成一个完整的故事流。图片来源：X@D_studioproject

在确保了照片内容的高品质后，nano-banana 生成的图片还非常真实。和此前大部分生图模型得到的 AI 味极浓的图片不同，nano-banana 的特点就是自然和逼真。

Flux 生成的图片，皮肤质感还是有明显的蜡质化，不够真实。

最后是 nano-banana 将场景转换为各种艺术风格方面表现，同样非常出色，包括水彩、油画和卡通风格，以及写实照片。

能够「复活」老照片。图片来源：X@DiegoGarey_jpg

我们也在 LMArena 里面测试了 nano-banana 这个神秘模型，看看它是不是真的这么强大。

体验地址：

https://lmarena.ai/?chat-modality=image

多人毕业照，也能变成专属你们俩的合影

首先，我们找了一张毕业合照，看看它是不是真的能生成一张两个人的合照。

它真的做到了，虽然这个田径场草皮生成的不是很像，但是在多轮的测试里面，Qwen、Flux、Seed 生成的图片全部都还是多人的，只有 nano-banana 明白了指令，提取出了两个人。

我们继续拿只有一张人脸的照片来测试，用开头那张照片，要求它生成一张白底证件照试试。

下面有六张照片，大家可以猜猜哪个是 nano-banana 生成的，或者你最喜欢哪个。

添加开头的照片，并输入提示词，「生成一张她的标准白底证件照，能直接用来申请护照。」

你没看错，第一张也是模型生成的，实在不知道什么护照可以用这样的照片。

答案揭晓，nano-banana 虽然看起来是最漂亮、最温柔的，但是 GPT-IMG 生成的更像证件照，因为有露出来一点点耳朵；Flux 好像不知道什么是证件照；Qwen 就很标准证件照了，但是太「标准」了，仿佛没参考我发给他的图片一样。

我们继续拿 nano-banana 生成的这张证件照，要求它为我们生成一张全身照，看看能不能在 AI 编辑的过程中，保持住这个角色原本的样子。

直接揭晓答案，这次 Gemini 的表现竟然不错，照片很真实，而且场景和衣服都搭配得很好；nano-banana 的表现也不错，但总觉得和证件照里面的女生，风格不太一样了。

向左滑动查看更多内容，Gemini 和 nano-banana 的生成效果

对于单张照片的单一角色，能做的编辑还非常多，像是下面这张图片，要求马斯克作出拳击的动作，人物基本上是做到了 100% 的复制，马斯克的他眼神、脸型、鼻子、还有嘴巴都很好的复制过来了。

单张照片的处理能做到完美复制，多张照片，nano-banana 的表现又如何。

我们找了两张有人脸的照片，告诉模型将这两个人拼凑在一起，看看是否还能像真实照片一样，看不出瑕疵。

输入右下角两张图片，提示词为「让这两个人在拳击擂台上自由搏击」

图片右边就是来自 nano-banana，而左上角则是 Gemini 生成的效果，可以看到明显的差距，nano-banana 非常真实，且一眼就能认出来，蓝色衣服的是小扎。

nano-banana 对物理世界也有惊人的理解能力

除了保持人物的样子不改变，nano-banana 还能在物体、背景等元素上，保持与输入图片做到完全一致。

例如下面两张房间的图片，我们显示让它开灯；然后又找了一张图片让它关灯。

当要求开灯时，乍一看 nano-banana 和 Flux 都做得不错，但是有一个细节是 nano-banana 不仅点亮了落地灯，更关键的是，它似乎重新计算了整个房间的光影逻辑。茶几的影子不再主要受窗外光影响，而是正确地投向了远离新光源的方向。

它并非简单地在图片上「贴」一个发光效果，而更像是在三维空间感和物理规律的层面「理解」了指令，就像 Google 前段时间发布的世界模型 Genie 3 一样。相比之下，Flux的结果更像是一个滤镜，氛围是到了，但逻辑还是有点问题。

关灯的效果差别就更明显了，Flux 是直接把落地灯都给弄消失了，而 nano-banana 成功把灯关掉了，还做了很全面的阴影和色调调节。

创造力也能保持一致，纯文生图不如 GPT

风格转换也是 nano-banana 的一大优点。无论是让黑白的照片重新焕发彩色的生机，还是让失真的图片变得真实，nano-banana 在 LMArena 里都做的比其他图像编辑模型要好。

Flux 生成的鲁迅，总觉得是色彩饱和度没有调节好，nano-banana 生成这张给我感觉就很真实，保留了那种年代感。

我们还找了最近热映的《浪浪山小妖怪》电影预告片的截图，然后要模型从动画风格转换成其他风格。

不过是 AI 都有可能会出错，就像这张图片，nano-banana 是直接给我了原图，但是 Qwen 把风格转换得很好。

当然也有可能是「吉卜力风格」会违反一些模型的使用规则，就像现在 4o 也没有办法直接输入吉卜力风格提示词生成照片。

还是开头那张照片，提示词「生成这张照片的素描画」

素描风格，nano-banana 就有办法处理了，右上的那张图，就是来自 nano-banana 的素描结果，我觉得比左下那张要好，因为看起来，真的更像是素描。

此外，nano-banana 的重点还是作为一个图像编辑模型，在纯粹的文生图能力上，表现并不算出色。

X 上有网友用 nano-banana 来做了一个高难度/复杂质感，以及光影/高级质感海报生成测试，结果还是 GPT-IMG 胜出。

图片来源：X@ZHO_ZHO_ZHO

Nano-banana 目前还是一个「未知」的模型，它只随机地出现在 LMArena 的盲测对抗测试中。

在我们的测试里面，输入 prompt，两张图生成完毕，投票选出更好的一张，最后才会揭晓哪张来自哪一个模型；有时候连续五六次都没能遇到它。

虽然这个模型的官方来源或开发者还没有正式确认，但网络上的讨论，以及生成图像的纹理和压倒性的质量，大部分人认为它很可能是 Google 的一个未公开项目。

毕竟，Google 也确实有在内部使用水果或者小吃等名称作为代码名称的历史。

而当我们尝试要它把自己的模型名字，显示在电脑屏幕上时，nano-banana 很自信的打上了 Gemini Pro。

最新的消息是，Google DeepMind 的负责人 Logan Kilpatrick 在 Google Pixel 10 发布前一天，发了一条推文，内容只有一个香蕉的 emoji，这基本上证实了这个模型就是来自 Google。

Google 这次为 Pixel 10 系列带来了 AI 编辑图片工具 Ask Photos，我们只需要输入想要对照片进行的编辑请求，然后由 AI 来完成，我们不需要再选择复杂的滑块、笔刷等各种工具。

为了防止图像篡改带来的负面影响，Google 也表示所有使用 AI 功能编辑的图像都会在 C2PA（内容来源和真实性联盟）内容凭证中注明。

X 博主 testingcatalog 发文提到 nano-banana 这个图像编辑模型，将不仅仅用在 Gemini 和 Whisk（Google 实验室图像生成产品）上，也将出现在 Flow（Google 视频生成产品）里面。

其实也不难想到，Flow 的图生视频功能，也正是像我们测试的图片编辑一样，让图片中的人物主体动起来。

在这篇爆料中还提到，Google 正在测试垂直宽高比的视频生成，以更好的在 TikTok、YouTube Shorts 等平台观看和传播。

Google 这段时间颇有不声不响做了很多事情，先是世界模型 Genie 3、然后在 LMArena 大语言模型竞技场上拿第一、接着又这个神秘模型 nano-banana；这让我越来越期待 Gemini 3 的发布了。

向左滑动查看更多内容，Google 的模型在 LMArena 文本、视觉、文生图、文生视频、图生视频等任务上都是第一

如果说当时的 4o 代表了 AI 生图的极致，nano-banana 已经开始在重新定义图像编辑。

最后，我们用 nano-banana 生成了几张图片，你能看出来哪张是原图，哪张是 AI 生成的吗？

向左滑动查看更多内容

欢迎加入 APPSO AI 社群，一起畅聊 AI 产品，获取#AI有用功，解锁更多 AI 新知👇

我们正在招募伙伴

📮 简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

更多岗位信息请点击这里🔗