图像生成AI新王诞生？一根香蕉如何改变世界

酷玩实验室原创作品

P图这门学问，不存在了，AI这次是真的要干掉Photoshop。

前几天，一个名叫Nano Banana的神秘新模型，出现在了国外平台LMArena上，LMArena就是业内有名的AI大模型竞技场，用户在这里输入提示词，会有数个不同的模型生成结果，让你评价谁好、谁垃圾，评完之后LMArena才会告诉你，答案分别属于哪个大模型。

结果是，短短几天之内，用户们就在盲选评价中，给Nano Banana打出了1360的高分，位列图像编辑AI的第一名，力压GPT、千问等知名大模型，用户们的心情，大概是这样的。

所以，Nano Banana到底有多猛？我们普通人又能拿它做什么？

01 Nano Banana 一致性的王

用这个大模型执行图像编辑任务时，用户最直观的感受就是，一致性无敌。

AI的一个常见任务，以图生图，给大模型们喂同样的参考，输入一样的提示词，让它们更换图中的背景，或者人物动作、服装。目前常用的几个老牌选手，在生成时都有很大的问题，新图明显无法与参考图中的人物保持一致，要么变了脸型，要么变了肤色或者胖瘦，姿势和动作也有细微变化。因为这种一致性问题，你很难做到控制变量，想变动一点，其余的部分全变了，根本没法用。

就比方说，用自然语言描述，要求AI给下面这张图替换背景，“换到室外的泳池边，整体构图和人物姿势动作形象都保持不变，图片的风格维持现状。”

GPT生成的结果是这样的，照片的风格大变，人物样貌有很大变化，手里夹的烟也消失了，甚至还多长了根手指，基本上可以判定为一眼AI。

这个则是豆包的生成结果，看得出来，它在努力保持人物的一致性，尽量做到PS抠图的效果，但豆包生成的背景有点太糊了，人物像站在一面油画前。

再看我们的主角Nano Banana，不仅把人物原样照搬了下来，细节无一丢失，背景的色彩和清晰度也比较合适，可以说是非常接近老师傅手抠的结果了，而且它非常聪明地添加了，连原图都没有的烟雾效果，显然Nano Banana是觉得，四个烟民站在这，空气不可能清新，烟雾缭绕才合理。

一个实战例子可能说明不了什么，咱们再来看几个。这是一位国外网友用Nano Banana编辑的照片，他给出的指令是，“把眼镜替换成黑色太阳镜，然后拿一杯健康饮料”，Nano Banana给出了右边的图，不仅把脸型、表情、肤色都保留了下来，墙壁上小鼓包也还在，它还认真还原了墨镜的半透明效果，以及镜片上的反光，非常自然。

作为对比，完全一样的参考和Prompt输入GPT，结果是这样的，莫名其妙给人物加了一层柔光滤镜，还疯狂磨皮，有种美颜拉到最大的感觉，而且人像的边缘有条显眼的黑线，像是抠出来放到墙壁前的样子。

豆包的结果好一些，人物是还原了，但眼镜有点假，很明显没有跟原来的场景、风格保持一致，融合度差点意思。

换句话说，Nano Banana 就可以做到，只在你想改的地方精准下刀，新生成的图像中，人物还能保持原来的相貌体型，其它物品保持不变，并且整体画质和风格跟原图同步，就好像找了PS高手帮你。

这么复杂的操作，用户却只需要用简单的自然语言下令，等于学会了打字P图，想给照片换个背景，抹掉什么闲杂人等，或者把某个人加进来，就一句话的事情而已，完全用不着费力学什么蒙版、套索。

于是，一大群人跑去LMArena上疯玩Nano Banana，开启了用嘴P图的生涯，这位网友要求Nano Banana，把自己以前在莫斯科拍的新年纪念照，背景换成纽约，年份换成2025，成品效果几乎完美。

也有人叫Nano Banana给自己换装，从沙滩裤换到西装，生成结果很还原现实中的体型，衣服上的光影也得到了保留，还生成了很多褶皱，足以以假乱真。

给照片换头也是毫无压力，尺寸和神情恰到好处，跟整体风格融得也比较好。

用Nano Banana，你甚至可以看看你家猫咪脱光衣服之后的样子。

接触AI比较多的朋友一定知道，生成一致性算是老大难问题了，模型看参考图跟我们人不一样，它要同时关注角色、背景、风格等多个元素，很容易在这个过程中遗失关键特征，它也难以区分角色的身份特征和图像的风格，再加上AI每次生成都是独立的，每次都存在随机，很难做到一致。对于高手来说，可以通过输入极其复杂的Prompt，来部分解决一致性问题，但这种魔法咒语的学习难度，可能并不比学习PS要低，对普通人来说还是有门槛的。

如果同样输入普通人能掌握的大白话，Nano Banana的表现明显比其它主流大模型高了几个段位，显然是在这些技术难题上取得了突破，至于具体采用什么逻辑，就不清楚了。

现在已经知道的是，Nano Banana的身世。刚开始的时候Nano Banana神秘兮兮的，也不知道是谁家搞出来的，后面用户反响不错，谷歌就跳出来认领了，承认了它是测试中的Gemini-2.5的绘图大模型。

现在谷歌已经开始全面推送，可以直接在官网上使用，不必再跑到LMArena上疯狂摇号，这进一步推高了Nano Banana的热度。

02 有常识的AI

随着更多用户能够稳定地调用Nano Banana，大家很快发现，这玩意的恐怖之处不仅仅在一致性，它在保持一致的同时还有强大的想象力。

比如说，变表情，你让AI改变某张照片中的人物的表情，大多数AI没有办法正确脑补这张脸的变化，会直接把整个脸都扭曲，Nano Banana就可以分析你的面部特征，生成更加自然的结果，跟真人照片放在一起，都难以分辨到底谁才是AI。

来做个测试，请看下图中的王の笑容，找出哪个是Nano Banana修改后的假王。

公布答案，1号和4号为编辑表情后的结果，有多少朋友猜对？

更牛的是，Nano Banana还有凭借合理想象多角度生成图像的能力，你给它喂一张正脸图，要求它把人物的脸转过来，Nano Banana可以在没有其它参考的情况下，凭借轮廓合理想象侧脸的模样，并且看上去符合常识。

当然，也可以反过来，用侧脸去生成正脸，也是丝毫没有突兀感。

Nano Banana还能根据固定角度的参考，想象变换机位之后的新角度。比如给它一张平视图，要求它以此为基础生成俯视图、仰视图，Nano Banana不仅可以识别人物和物体特征，用靠谱的空间想象力，脑补出俯视的样子，对于一些平视图中没有完全露出的物件，它也可以用常识进行补全，比如我们前面说的聚众抽烟图，参考图里只露出一盆花，它知道在俯视想象中给花下面补个茶几，以让花盆达到正确的高度，它甚至还分析了人物在干嘛，在添加物件的时候搁了几个烟灰缸。

非要挑的话，在不起眼的角落里，Nano Banana还是犯了个经典的边界不清错误，证明自己依然是个AI，不然大家都要害怕智械觉醒了。

按照谷歌的说法，Nano Banana在这方面强，是因为它并非一个单纯的图像编辑模型，而是融合了Gemini 的世界知识，所以它有常识和强大的逻辑推理能力，能够理解文本、图像所代表的含义，也懂得现实的状况和规则，得到的结果自然更符合用户的预期。

这种基于现实逻辑的想象，是传统修图软件无论如何都做不到的，也是很多AI的弱点。

再加上超强的一致性，最终得到的结果就是，开局一张图，之后随心所欲输出自己想要的画面，想保留什么元素，想改变什么，全由你来决定。

用老外的话来说，Google just killed Photoshop.

03 全民创作，启动！

当网友们见识到了Nano Banana的实力，就开始疯玩了。

首先整活党得到了极大的加强，各种以假乱真的Nano Banana 恶搞图满天飞。现在X上面人均傍大腕，跟将军亲切拥抱的，跟登子握手合影的，还有夜访普京的，个个背景过硬。

作为爱恨两极分化的总统，川普自然也逃不过恶搞的大手，已经被Nano Banana送去主演《芭比》了，你别说，粉粉嫩嫩的还挺合适他。

各个科技巨头的头头们，也集体被搞抽象，让奥特曼去表演体操，让马斯克戴金链子、穿一身西海岸该溜子装，让桑德尔这位印裔CEO，把谷歌办公室搬到破旧的印度农村房。

明星们现在应该也在瑟瑟发抖，毕竟霉霉刚发的订婚照，已经被Nano Banana给P成了瑟曦同款短发。

跟巴萨和可乐斗了半辈子的C罗，也在Nano Banana和网友的帮助下，实现了世纪大和解。

还有好奇心爆表的车手，尝试利用Nano Banana脱掉HKdoll姐姐的口罩，看完生成结果之后，应该是心满意足地去拿卫生纸了。

好玩是一方面，那些想把AI当成生产力的人，也发现了新大陆。

Nano Banana可以把你提供的素材图，按照要求跟人物搭配成图，穿什么衣服，拿什么手机，坐什么汽车，摆什么姿势，都随你定，它熔炼素材还熔得特好，身材不走样，比例不失真，并且能搞出高级感。

过去也有一些大模型推出类似的AI换装、AI穿搭功能，但Nano Banana能够使用的素材数量要多得多，在官方演示中就有13个不同的素材被安排进去，X上还有用户反馈，如果你在一张图里放几个素材，可以塞更多元素，他最高用了18个。

而且，对于一些语言难以仔细描述的动作、姿势，你也可以通过上传示意图来跟Nano Banana解释，画成火柴人那么抽象，它都照样能理解。

这不仅省去了修图的功夫，还省掉了找道具拍摄的成本，对于做电商、搞广告设计来说堪称神器，花小钱买点Token，十几秒就能做完一天的工作。

另一个用法是突破次元壁，你可以把各种手稿、动漫乃至真人喂给Nano Banana，让它帮你做成手办的样子。

既有栩栩如生的动态和表情，又还原了塑料和漆面特殊的光泽、质感，确实看起来像手办。

这个用法已经成了小红书的流量密码，会引来一堆人在评论区求帮忙做同款，轻松起号。

对于搞室内设计或者想装修的人，还有卖家具的人，Nano Banana也是绝对的神器，谷歌基于这个大模型定制了一个官方小工具，让Nano Banana拿毛坯照片生成装修效果图，拿空房生成放满家具的样子。

你甚至都不用描述，小工具允许你直接把家具素材图，拖到指定位置，就可以生成对应的效果，省下了想提示词的功夫。

不仅如此，高手们还捣鼓出了无数的邪修玩法，比如说你可以给一张背景虚化掉的照片中，随便画一圈，把圈里面模糊的人或者物提取出来，要求Nano Banana进行合理想象，生成这个人物的高清大图，感觉刑警队会很爱用。

你还可以利用Nano Banana的世界知识，把卫星图转换为风景图，用户只需要画个箭头号，告诉它这是摄影师的视角，Nano Banana就会开始推理这是哪，你在什么位置，然后生成这里所能看到的画面，一些平时需要付费购买的城市风景照，就可以免费获取了。再搭配上其它的图生视频AI模型，让画面动起来，那些高价的空镜素材，没花一分钱就到手了。