AI 上新 | 谷歌最新「香蕉」AI 图像模型,让网友疯玩「Vibe Photoshoping」

极客公园 2025-08-27 13:11
资讯配图
高度的角色一致性,带来了前所未有的「Vibe Photoshoping」体验。

作者|张勇毅

编辑|靖宇

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗?当时在 LMArena 大语言模型竞技场里,它凭借出色表现一度被讨论得沸沸扬扬。Google Gemini 各路技术大牛也是轮番出马,在社交媒体上吊足众人胃口,甚至一度成为了传闻中的 Gemini 3.0 Pro

如今,Google 终于揭开了它的神秘面纱。

北京时间 8 月 27 日凌晨,Google AI Studio 正式发布了 Gemini 2.5 Flash Image(代号 nano banana)🍌。

资讯配图

预热许久终于登场的 Gemini 2.5 Flash Image | 图片来源:极客公园


这是迄今为止 Google 最先进的图像生成与编辑模型,不仅速度快得离谱,几乎是「闪电般」的体验,还在多个榜单上拿下了 SOTA 的成绩,在 LMArena 上更是遥遥领先。

资讯配图

一登场就达到 SOTA 能力的 Gemini 2.5 Flash Image | 图片来源:LMarena.ai


在技术博客里,Google 提到 Gemini 2.0 Flash 已经凭借低延迟和高性价比赢得了开发者的青睐,但用户们一直期待更高质量的图像和更强大的创作控制。Gemini 2.5 Flash Image 正是带着这些重磅升级而来:角色一致性终于得以充分保持,基于提示的图片编辑也更精准,多幅图像的融合效果自然流畅,再加上对现实世界知识的理解,让它不仅是一款模型,更像是为下一代爆款应用奠定基础的「原点」。

极客公园也在第一时间体验了它。出乎意料的是,这不仅仅是一个模型更新,它让人第一次真切地感觉到,AI 修图未来的样子已经近在眼前。

资讯配图

Google AI Studio 中目前已经开放体验 | 图片来源:极客公园


一开始,我的确只是抱着常规体验、「看看新模型又快在哪」的心态。可没想到,短短几个小时的体验,让我仿佛提前窥见了下一代爆款应用的模样。

过去我们习惯了美图秀秀这样的工具,点点按钮、套个滤镜,照片就能迅速变美。但 Gemini 2.5 Flash Image 给人的感觉完全不同。它快得不可思议,聪明得像个懂你心思的设计师,你只需要说出想要的效果,它就能在几秒钟里把画面呈现出来。

资讯配图

除了效果,速度也是 Gemini 2.5 Flash Image 另一个明显不同于此前模型生图产品的体验 | 图片来源:极客公园




栏目作者召集

极客公园的新栏目「AI 上新」,将带大家体验最新的 AI 应用和硬件,让你成为 AI 时代「最靓的仔」!  

现在,我们也向所有喜欢尝鲜和体验 AI 的同学发出召集,只要你发现并体验了新的 AI 应用或者功能,按照格式(参考案例AI上新|马卡龙 AI,一场从「哇塞」到「算了」的过山车体验)向栏目投稿,在极客公园公众号发布,不仅能获得相应稿费,且会为你「报销」AI 应用的订阅费用。

同时,优秀作者还有机会进入极客公园 AI 体验群,获得最新 AI 应用和工具的内测资格,参加极客公园专属相关 AI 活动,和 AI 应用创始人一对一沟通。

AGI 太久,只争朝夕,让一部分人先 AI 起来吧!投稿、进群请扫描下方二维码添加极客小助手微信

资讯配图


01

极速生成,几秒钟出结果


Nano banana 体验最直观的就是速度。以往在使用一些开源模型时,哪怕你电脑配置不错,从输入提示到生成一张像样的图,也得等个几十秒甚至更久。对于手机端用户来说,这个等待过程更是煎熬。

但 Gemini 2.5 Flash Image 把这个门槛直接拉低到了几秒钟的级别。它本身是 Google 宣称的「最新、最快、最高效」的原生多模态模型,在优化上明显下了很大功夫。我在实际测试时,输入一句提示,大概三四秒就能生成结果,而且分辨率和细节都相当清晰。

这种体验很像我们日常用美图秀秀处理照片:点一下「美颜」按钮,几乎是即时见效。区别在于,美图秀秀是用算法套现成滤镜,而 Gemini 2.5 Flash Image 是在从零构建一张图,或者把一张照片按你的需求进行大幅改造。这种「指哪打哪」的爽感,是以往繁琐的 P 图流程完全不可想象的。

资讯配图

类似这种「删除路人背景」的需求,只需要一个 Prompt 就能解决 | 图片来源:极客公园


如果说速度解决的是传统 P 图用户的体验感,那么「原生多模态」解决的就是 AI 图片能力边界

Gemini 2.5 Flash Image 不仅能生成图片,还能同时理解文字和图像输入。这意味着我可以把一张照片和一段文字提示同时给它,它会结合两者的信息去理解我到底想要什么。

举个例子,我上传了一张在街头拍的照片,然后告诉它「把背景改成东京新宿的夜景」。结果它不仅识别出了我上传照片里的主体,而且准确地把人抠出来,背景替换成了霓虹灯闪烁的新宿街头。更难得的是,它还保持了人物光影的统一,完全没有人手抠图经常无法避免的那种「硬抠贴」的效果。

这种理解力让我想起近几年手机厂商在系统自带相册中经常被提到的一个功能——「一键换背景」。但区别在于,当年的换背景常常边缘发虚、光影不对,效果很假。而现在,Gemini 2.5 Flash Image 能用世界知识和视觉理解来补足这些细节,结果自然得多,获得了远比传统文生图/图生图模型工具更准确的画面细节保留。

资讯配图

原图 & Gemini 2.5 Flash Image 生成效果 | 图片来源:极客公园


这也是为什么我觉得它会重新定义修图体验:不再是依赖大量手工调整,而是靠模型的自然语义理解来「大力飞砖」式的完成任务,例如在人像 P 图这种对画面细节要求极高的场景。

资讯配图

对于这种人像图片处理需求,Gemini 2.5 Flash Image 的角色一致性真的提供了一种前所未有的「Vibe Photoshoping」体验。

资讯配图

一秒帮程序员「挽尊」| 图片来源:极客公园


这种体验打破了很多人对 AI 图像生成以往印象 —— 「玄学」:无论你提示词写得好,出图效果惊艳;提示词写得一般,生成的东西可能完全跑偏。

但在 Gemini 2.5 Flash Image 里,我发现这种「玄学感」被削弱了很多。它对提示词的理解更精准,也更贴近用户的直觉 —— 这就是为什么不少人会突然觉得它会好用很多的原因。

比如我对它说「模糊背景,突出前景人物」,几秒钟后生成的图正是我想要的效果;我让它「把照片里的人换成微笑的表情」,结果不仅嘴角微微上扬,连眼神都做了调整,细节非常到位;我甚至试过「给黑白照上色」,结果输出的彩色图并不是乱涂一气,而是尽可能贴近历史照片中该有的色彩氛围。

这种「说到做到」的能力,让我想到过去用美图秀秀时,明明只是想磨皮,结果整张脸变成了「开了十级美颜」的假人脸。而现在,Gemini 2.5 Flash Image 的操作是精准的、克制的,它真的理解你要什么,然后尽量还原。


02

能力加强,旦用难回


为了更直观,我特意拿它和我日常常用的移动端修图工具做了对比。

在 Snapseed 上,我如果要模糊背景,通常需要花一两分钟手动圈选前景区域,再调整模糊程度。即使操作熟练,也免不了反复修改。

在美图秀秀上,虽然有一键背景模糊功能,但经常会把人物的边缘模糊掉,效果不够自然。

而在 Gemini 2.5 Flash Image 上,我只需要一句话,它自动识别出人物和背景的边界,模糊效果自然,完全不需要二次修饰。

资讯配图

在更改画面中细节的同时,仍然对其他背景部分避免了此前 AI 工具经常出现的「乱涂乱画」 | 图片来源:Twitter


这种对比其实说明了一点:Gemini 2.5 Flash Image 把用户从复杂操作中解放了出来,把更多的工作交给了模型。对于普通人来说,它降低了修图的门槛;对于专业人士来说,它节省了大量时间。

体验下来,我最大的感受是,Gemini 2.5 Flash Image 已经不再只是一个修图工具,而是更接近「智能助手」。

过去,我们用美图秀秀,是在使用一个预设好的功能合集,滤镜、美颜、马赛克,每一个按钮对应一个功能。你要做的就是一点点选择、一步步调整,直到满意。

而现在,Gemini 2.5 Flash Image 的逻辑完全不同。它不再要求你学习工具的逻辑,而是直接理解你的需求。你只要说出来,它就替你完成。

这种转变看似细微,但实质上完全改变了 P 图这个流程的关系。以前是我们去适应工具,现在是工具来适应我们。这种交互方式,本身就是下一代应用形态的雏形。

站在现在来看,Gemini 2.5 Flash Image 还处在早期阶段,功能上可能还有边界。但它展现出来的速度、理解力和还原度,足以让人对未来充满想象。

如果把它和美图秀秀结合起来,会是什么样子?可能是你打开应用,对着手机说一句「帮我修一下这张照片,让皮肤自然一些」,几秒钟后结果就生成了;可能是旅行拍照时,你告诉它「把天气改成晴天」,照片立刻变成阳光明媚的样子;甚至可能是视频编辑里,你用一句话就能改变整个片段的氛围。

资讯配图

这种方式未来可能会迅速成为手机操作系统中的主流图片编辑功能 | 图片来源:Twitter


这就是为什么我觉得它会迅速革命 P 图工具领域现有的操作流程,定义下一代「美图秀秀」:不仅仅是修图,而是重新塑造图像处理的交互方式,让 AI 成为你的摄影后期伙伴。

但目前 Gemini 2.5 Flash Image 还并不能一步到位,充当开箱即用的大众 P 图 App:不仅是因为它的主要目的仍然是图像生成而非在现有的基础上微调,而且所有通过 Gemini 2.5 Flash Image 创建或编辑的图像都会包含一个SynthID 数字水印,用于社交内容平台识别 AI 生成内容。


03

爆款的爆发点


回头想想,美图秀秀曾经之所以能成为全民应用,靠的是它用最简单的方式解决了所有人都想解决的问题——让照片更好看。

而 Gemini 2.5 Flash Image,正是在这个基础上进一步,把复杂的 AI 能力打磨成人人都能用的「秒出图」体验。

当我第一次对它说出「帮我模糊一下背景」,几秒后画面就被自然处理好的那一瞬间,我心里很清楚:这是爆款应用的爆发原点。它不仅仅是一个模型,而是未来无数新产品的底层能力。

资讯配图

前几年在手机用户之间爆火的 AI 一键换天功能 | 图片来源:vivo 社区


也许几年后,我们会忘记 Banana 这个代号,但会看到越来越多这种让你「想要什么就说出来,立刻就能实现」的新体验的图片处理工具,也许会像当年的美图秀秀一样,成为一代用户的共同记忆。

只不过这一次,AI 会把想象力推得更远。

*头图来源:Google
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问
你觉得 nano banana 的实力如何?


资讯配图
资讯配图

资讯配图

热点视频

何小鹏:害一个哥们就劝他去造车。雷军:何小鹏力劝我造车。

点赞关注极客公园视频号
观看更多精彩视频


资讯配图

更多阅读

资讯配图


资讯配图

资讯配图
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
【WRC专家观点】卡塔尔皇室办公室特别顾问塔哈·穆罕默德:《从海湾到全球:卡塔尔的AI与机器人未来》
ICML 2025 | AI虚拟细胞落地重大进展:清华AIR,水木分子等首创并开源多尺度空间转录组学基础大模型SToFM
深度丨挖人、重组、解散、暂停,Meta的AI部门正在大洗牌
谷歌安卓“快速分享”功能将兼容iOS,或成跨端AirDrop替代者
107页精译麦肯锡2025技术趋势报告:Agentic AI放首位,13大趋势揭晓未来人机共生,附下载
不靠高薪靠信仰!以文化破局,Anthropic凭「使命驱动」杀出AI人才血路
小扎高薪挖来的人又跳回OpenAI了!首席科学家赵晟佳也要回去
【报告】AIGC专题四:2025年AIGC赋能B2B邮件营销-突破增长瓶颈的智能化转型白皮书(附PDF下载)
AirPods Pro 3上架?外观大变样!还能检测心率...
【AI加油站】RPA 流程自动化系列四:PromptRPA——面向智能手机的自然语言驱动机器人流程自动化系统综述(附PDF下载)
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号