图像生成AI新王诞生?一根香蕉如何改变世界

酷玩实验室 2025-08-30 22:00
资讯配图
酷玩实验室原创作品


P图这门学问,不存在了,AI这次是真的要干掉Photoshop。


前几天,一个名叫Nano Banana的神秘新模型,出现在了国外平台LMArena上,LMArena就是业内有名的AI大模型竞技场用户在这里输入提示词,会有数个不同的模型生成结果,让你评价谁好、谁垃圾,评完之后LMArena才会告诉你,答案分别属于哪个大模型。


资讯配图


结果是,短短几天之内,用户们就在盲选评价中,给Nano Banana打出了1360的高分,位列图像编辑AI的第一名力压GPT、千问等知名大模型用户们的心情,大概是这样的。


资讯配图


所以,Nano Banana到底有多猛?我们普通人又能拿它做什么?




01 Nano Banana 一致性的王


用这个大模型执行图像编辑任务时,用户最直观的感受就是,一致性无敌


AI的一个常见任务,以图生图给大模型们喂同样的参考,输入一样的提示词,让它们更换图中的背景,或者人物动作、服装。目前常用的几个老牌选手,在生成时都有很大的问题,新图明显无法与参考图中的人物保持一致,要么变了脸型,要么变了肤色或者胖瘦,姿势和动作也有细微变化因为这种一致性问题,你很难做到控制变量,想变动一点,其余的部分全变了,根本没法用。


就比方说,用自然语言描述,要求AI给下面这张图替换背景,“换到室外的泳池边,整体构图和人物姿势动作形象都保持不变,图片的风格维持现状。”


资讯配图


GPT生成的结果是这样的,照片的风格大变,人物样貌有很大变化,手里夹的烟也消失了,甚至还多长了根手指,基本上可以判定为一眼AI


资讯配图


这个则是豆包的生成结果,看得出来,它在努力保持人物的一致性,尽量做到PS抠图的效果,但豆包生成的背景有点太糊了,人物像站在一面油画前。


资讯配图


再看我们的主角Nano Banana,不仅把人物原样照搬了下来,细节无一丢失,背景的色彩和清晰度也比较合适,可以说是非常接近老师傅手抠的结果了,而且它非常聪明地添加了,连原图都没有的烟雾效果显然Nano Banana是觉得,四个烟民站在这,空气不可能清新,烟雾缭绕才合理。


资讯配图


一个实战例子可能说明不了什么,咱们再来看几个。这是一位国外网友用Nano Banana编辑的照片,他给出的指令是,“把眼镜替换成黑色太阳镜,然后拿一杯健康饮料”,Nano Banana给出了右边的图,不仅把脸型、表情、肤色都保留了下来,墙壁上小鼓包也还在,它还认真还原了墨镜的半透明效果,以及镜片上的反光,非常自然。


资讯配图


作为对比,完全一样的参考和Prompt输入GPT,结果是这样的,莫名其妙给人物加了一层柔光滤镜 ,还疯狂磨皮,有种美颜拉到最大的感觉,而且人像的边缘有条显眼的黑线,像是抠出来放到墙壁前的样子。


资讯配图


豆包的结果好一些,人物是还原了,但眼镜有点假,很明显没有跟原来的场景、风格保持一致,融合度差点意思。


资讯配图


换句话说,Nano Banana 就可以做到,只在你想改的地方精准下刀,新生成的图像中,人物还能保持原来的相貌体型,其它物品保持不变,并且整体画质和风格跟原图同步,就好像找了PS高手帮你。


这么复杂的操作,用户却只需要用简单的自然语言下令,等于学会了打字P图,想给照片换个背景,抹掉什么闲杂人等,或者把某个人加进来,就一句话的事情而已,完全用不着费力学什么蒙版、套索。


于是,一大群人跑去LMArena上疯玩Nano Banana,开启了用嘴P图的生涯,这位网友要求Nano Banana,把自己以前在莫斯科拍的新年纪念照,背景换成纽约,年份换成2025,成品效果几乎完美。


资讯配图


也有人叫Nano Banana给自己换装,从沙滩裤换到西装,生成结果很还原现实中的体型,衣服上的光影也得到了保留,还生成了很多褶皱,足以以假乱真。


资讯配图


给照片换头也是毫无压力,尺寸和神情恰到好处,跟整体风格融得也比较好。


资讯配图


用Nano Banana,你甚至可以看看你家猫咪脱光衣服之后的样子。


资讯配图


接触AI比较多的朋友一定知道,生成一致性算是老大难问题了模型看参考图跟我们人不一样,它要同时关注角色、背景、风格等多个元素,很容易在这个过程中遗失关键特征,它也难以区分角色的身份特征和图像的风格,再加上AI每次生成都是独立的,每次都存在随机,很难做到一致。对于高手来说,可以通过输入极其复杂的Prompt,来部分解决一致性问题,但这种魔法咒语的学习难度,可能并不比学习PS要低,对普通人来说还是有门槛的。


如果同样输入普通人能掌握的大白话,Nano Banana的表现明显比其它主流大模型高了几个段位,显然是在这些技术难题上取得了突破,至于具体采用什么逻辑,就不清楚了。


现在已经知道的是,Nano Banana的身世。刚开始的时候Nano Banana神秘兮兮的,也不知道是谁家搞出来的,后面用户反响不错,谷歌就跳出来认领了,承认了它是测试中的Gemini-2.5的绘图大模型。


资讯配图


现在谷歌已经开始全面推送,可以直接在官网上使用,不必再跑到LMArena上疯狂摇号,这进一步推高了Nano Banana的热度。




 02 有常识的AI


随着更多用户能够稳定地调用Nano Banana,大家很快发现,这玩意的恐怖之处不仅仅在一致性,它在保持一致的同时还有强大的想象力。


比如说,变表情,你让AI改变某张照片中的人物的表情,大多数AI没有办法正确脑补这张脸的变化,会直接把整个脸都扭曲,Nano Banana就可以分析你的面部特征,生成更加自然的结果,跟真人照片放在一起,都难以分辨到底谁才是AI。


来做个测试,请看下图中的王の笑容找出哪个是Nano Banana修改后的假王。


资讯配图


公布答案,1号和4号为编辑表情后的结果,有多少朋友猜对?


更牛的是,Nano Banana还有凭借合理想象多角度生成图像的能力,你给它喂一张正脸图,要求它把人物的脸转过来,Nano Banana可以在没有其它参考的情况下,凭借轮廓合理想象侧脸的模样,并且看上去符合常识。


资讯配图


当然,也可以反过来,用侧脸去生成正脸,也是丝毫没有突兀感。


资讯配图


Nano Banana还能根据固定角度的参考,想象变换机位之后的新角度。比如给它一张平视图,要求它以此为基础生成俯视图、仰视图,Nano Banana不仅可以识别人物和物体特征,用靠谱的空间想象力,脑补出俯视的样子,对于一些平视图中没有完全露出的物件,它也可以用常识进行补全,比如我们前面说的聚众抽烟图,参考图里只露出一盆花,它知道在俯视想象中给花下面补个茶几,以让花盆达到正确的高度,它甚至还分析了人物在干嘛,在添加物件的时候搁了几个烟灰缸


资讯配图
资讯配图


非要挑的话,在不起眼的角落里,Nano Banana还是犯了个经典的边界不清错误,证明自己依然是个AI,不然大家都要害怕智械觉醒了。


资讯配图


按照谷歌的说法,Nano Banana在这方面强,是因为它并非一个单纯的图像编辑模型,而是融合了Gemini 的世界知识所以它有常识和强大的逻辑推理能力,能够理解文本、图像所代表的含义, 也懂得现实的状况和规则,得到的结果自然更符合用户的预期。


这种基于现实逻辑的想象,是传统修图软件无论如何都做不到的,也是很多AI的弱点。


再加上超强的一致性,最终得到的结果就是,开局一张图,之后随心所欲输出自己想要的画面,想保留什么元素,想改变什么,全由你来决定。


资讯配图


用老外的话来说,Google just killed Photoshop.




03  全民创作,启动!


当网友们见识到了Nano Banana的实力,就开始疯玩了。


首先整活党得到了极大的加强各种以假乱真的Nano Banana 恶搞图满天飞。现在X上面人均傍大腕,跟将军亲切拥抱的,跟登子握手合影的,还有夜访普京的,个个背景过硬。


资讯配图


作为爱恨两极分化的总统,川普自然也逃不过恶搞的大手,已经被Nano Banana送去主演《芭比》了,你别说,粉粉嫩嫩的还挺合适他。


资讯配图


各个科技巨头的头头们,也集体被搞抽象,让奥特曼去表演体操,让马斯克戴金链子、穿一身西海岸该溜子装,让桑德尔这位印裔CEO,把谷歌办公室搬到破旧的印度农村房。


资讯配图


明星们现在应该也在瑟瑟发抖,毕竟霉霉刚发的订婚照,已经被Nano Banana给P成了瑟曦同款短发。


资讯配图


跟巴萨和可乐斗了半辈子的C罗,也在Nano Banana和网友的帮助下,实现了世纪大和解。


资讯配图


还有好奇心爆表的车手,尝试利用Nano Banana脱掉HKdoll姐姐的口罩,看完生成结果之后,应该是心满意足地去拿卫生纸了。


资讯配图
资讯配图


好玩是一方面,那些想把AI当成生产力的人,也发现了新大陆。


Nano Banana可以把你提供的素材图,按照要求跟人物搭配成图穿什么衣服,拿什么手机,坐什么汽车,摆什么姿势,都随你定,它熔炼素材还熔得特好,身材不走样,比例不失真,并且能搞出高级感。


资讯配图


过去也有一些大模型推出类似的AI换装、AI穿搭功能,但Nano Banana能够使用的素材数量要多得多,在官方演示中就有13个不同的素材被安排进去,X上还有用户反馈,如果你在一张图里放几个素材,可以塞更多元素,他最高用了18个。


资讯配图


而且,对于一些语言难以仔细描述的动作、姿势,你也可以通过上传示意图来跟Nano Banana解释,画成火柴人那么抽象,它都照样能理解。


资讯配图


这不仅省去了修图的功夫,还省掉了找道具拍摄的成本,对于做电商、搞广告设计来说堪称神器,花小钱买点Token,十几秒就能做完一天的工作。


另一个用法是突破次元壁你可以把各种手稿、动漫乃至真人喂给Nano Banana,让它帮你做成手办的样子。


资讯配图


既有栩栩如生的动态和表情,又还原了塑料和漆面特殊的光泽、质感,确实看起来像手办。


资讯配图


这个用法已经成了小红书的流量密码,会引来一堆人在评论区求帮忙做同款,轻松起号。


资讯配图


对于搞室内设计或者想装修的人,还有卖家具的人,Nano Banana也是绝对的神器,谷歌基于这个大模型定制了一个官方小工具,让Nano Banana拿毛坯照片生成装修效果图,拿空房生成放满家具的样子。


你甚至都不用描述,小工具允许你直接把家具素材图,拖到指定位置,就可以生成对应的效果,省下了想提示词的功夫。


资讯配图


不仅如此,高手们还捣鼓出了无数的邪修玩法比如说你可以给一张背景虚化掉的照片中,随便画一圈,把圈里面模糊的人或者物提取出来,要求Nano Banana进行合理想象,生成这个人物的高清大图,感觉刑警队会很爱用。


资讯配图


你还可以利用Nano Banana的世界知识,把卫星图转换为风景图用户只需要画个箭头号,告诉它这是摄影师的视角,Nano Banana就会开始推理这是哪,你在什么位置,然后生成这里所能看到的画面,一些平时需要付费购买的城市风景照,就可以免费获取了。再搭配上其它的图生视频AI模型,让画面动起来,那些高价的空镜素材,没花一分钱就到手了。


资讯配图




 04 真假难辨


可以说,Nano Banana的诞生,代表着图像编辑AI达到了一个新的高度,已经可以有效解决人类“手跟不上脑”的问题,你想象,然后说出来,就可以获得图像。


对于普通人来说,修图做图,不再是一门高深的技术,人人都可以低成本展示自己的灵感可能在今后的时代,创意才是最贵的。


当然,硬币也有另外一面,但AI生成的水平,逐渐逼近“以假乱真”,它被用来作恶的能力也越强。


在Nano Banana尚未出现的时候,各种AI图就已经能够骗到识别能力不强的人,骗过一些检测系统。有人拿AI做出物品损坏的样子骗商家赔款,天天薅羊毛,有人用AI生成门头来掩盖幽灵外卖店,假装自己很正规。


资讯配图


更不要说,每天还有各种各样的AI假新闻图在网上到处飞,疯狂制造谣言……


资讯配图


这种低水平的AI造假,目前我们都无法完全拦截,也不是所有人都能识破,当Nano Banana等新一代AI普及,恐怕情况会变得更加严重。


搞传销的,再也犯不着去4S蹭玛莎拉蒂,或者砸钱请奥巴马来合影,他们坐在电脑前就可以随便伪造出跟大佬握手的图,骗你入局。卖假货的,也犯不着请什么演员来做违背祖宗的决定,随便AI生成一下,便可以让明星大腕一脸真诚地手持自己的产品,免费做代言。


资讯配图


又或者说,诈骗犯只要搞到一张你的照片,就能制造出无数你挨打被虐的图,让你爹妈以为你被绑到缅北去了,然后掏空家底给你交赎金。


几十年前,整个社会都是以 "眼见为实" 的认知体系为基础,照片就是铁证,视频就是定论,因为那时候的人们知道,这些东西是难以修改和伪造的。PS的出现,第一次动摇了这个认知体系,因为伪造成本变得太低,稍微懂点技术的人都可以搞,但凡看到照片,我们脑子里都得冒出一句:“是原图吗?”


现如今,门槛更低、能力更强的图片编辑AI,又准备革掉PS的命,以后会发生什么呢?


大脑的想象力,是放飞了,但我们的眼睛,好像也不值得信任。





酷玩实验室整理编辑
首发于微信公众号:酷玩实验室(ID:coollabs)
需转载,请后台留言
资讯配图

酷玩实验室视频号
热点视频推荐↓↓↓
全民用嘴P图?

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
花生上树了?AI 竟然敢这么玩!
143亿美金买来一场空!小扎向谷歌OpenAI低头,史上最大AI赌注失速
离谱!良品铺子花生长树上,AI营销又一次翻车
那天,AI大模型想起了,被「失忆」所束缚的枷锁
混乱、内耗、丑闻:Meta考虑向Google、OpenAI低头
AI再造「司美格鲁肽」?百亿美金涌向AI制药
美团自研大模型开源;百亿级半导体项目正式宣告破产;微信:发布AI生成的内容,用户需主动声明 | AI周报
IEEE Fellow开场!最火AI芯片峰会最新进展公布,同期存算一体研讨会嘉宾全揭晓
AI知识库更新2:广东、江苏、福建、安徽县域特色产业资料
23岁被OpenAI开除天才逆袭募资15亿/威尔·史密斯被指用AI「造假」粉丝/马斯克起诉前员工跳槽窃密|Hunt Good周报
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号