视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒

量子位 2026-07-01 09:01
Jay 发自 凹非寺
量子位 | 公众号 QbitAI

虽然Coding还是一坨,但谷歌搞「多模态」确实有两把刷子。

Gemini Omni Flash正式开放API视频版Nano Banana

麻瓜爆改「哈利波特」不再是梦想。且看官方用Gemini Omni表演的这四个数字魔术:

太离谱了,这一致性和文字清晰度,还要啥绿幕和特效,直接现场直播奇异博士。

与此同时,大家心心念念的「香蕉」,也迎来了「光速版」。

Nano Banana 2 Lite:迄今为止最快、最济高效的Gemini图像模型。

毫不夸张——4秒出一张图,1K分辨率图像仅需约2毛多

视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒图1

和Nano Banana 2放在一起对比,这个速度,简直起飞了。

更别说一次生图能干3分钟的GPT Image 2……

怪不得半天没憋出来Gemini 3.5 Pro,敢情时间全花在心心念念的多模态上了是吧,哈萨比斯!!

Gemini Omni Flash

Google I/O 2026大会上首次亮相的Gemini Omni Flash,把Gemini的多模态推理能力与视频生成、编辑深度结合,当时就引发了不少关注。

如今,这个模型已通过Gemini API和Google AI Studio正式向开发者开放。能基于文本、图像和视频等多种输入,轻松生成高质量视频并进行编辑。

四项关键能力:

视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒图2

价格也很有竞争力:每秒视频输出成本0.10美元,跟Veo 3.1 Fast持平。

定位方面,同为轻量版视频生成模型,Omni Flash更强调Gemini世界知识,生态方面也是全面朝Gemini层靠拢的。

不过谷歌也挺坦诚,主动列了一堆现阶段局限:

1、目前只支持10秒视频生成,后续会支持更长;

2、暂不支持音频参考上传和场景扩展;

3、API支持最长3秒的视频作为参考素材,但目前模型还无法正确处理这类输入;

4、场景切换和运镜时的人物一致性仍有局限。

Nano Banana 2 Lite

Nano Banana 2 Lite(又名gemini-3.1-flash-lite-image),专为高速处理而设计。

经过针对性优化,它瞄准的是那些对延迟极度敏感、需要短时间内批量处理大量图像的实时应用场景——比如电商素材批量生成、广告创意快速迭代、自动化内容流水线。

大核心卖点——

速度砍了,价格砍了,但生图和图像编辑能力并没有明显缩水。Nano Banana 2 Lite 依然保持了出色的文字渲染效果,在benchmark上和Grok等模型处于同一水平线。

视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒图3

因此谷歌的建议是:如果你还在贪便宜用初代Nano Banana,赶紧Lite版在各项关键指标上已经全方位碾压了。

双剑合璧

等等,先别走。

本以为这只是两款并行的模型发布,没想到谷歌表示:还有新花样。

真正的神奇之处,在于将这些模型串联起来使用。

众所周知,AIGC创作需要反复迭代,素材管理相当麻烦。

如今,借助这两个模型,终于不用再反复上传文件了,图像生成与视频创作无缝衔接。

具体来说,可以先用Nano Banana 2 Lite高速出图,再把生成的图像作为参考素材喂给 Gemini Omni Flash,一键转化为视频。

为了展示这套1+1>2的魔法Workflow,谷歌甚至专门做了3个Demo APP:

1、Anywhere

自拍一张或上传照片,NB2 Lite瞬间把你P到几十个地标景点里。

接着点一下图片,Omni Flash把静态景点变成动态短片。

赛博旅游,这下也端到端了。

2、Space Lift

这有点吓人,感觉再和Genie世界模型结合一下,未来怕是要威胁到不少传统装修方案SaaS公司。

上传一张房间照片,NB2 Lite先出各种装修风格方案。找到喜欢的,点视频按钮,Omni能直接给你一段电影级空间漫游。

3、Omni product studio

跨境电商的福音来了。

给产品拍张白底图,NB2 Lite出各种场景化商品图,Omni Flash再把静态图变成电商短视频。

从「产品」到「广告素材」,全链路自动跑完。

所以,多模态到底有什么用?

这个问题谷歌肯定被问了无数次。

尤其在2026年,Coding几乎等同于模型智商的代名词。每家都在Coding上往死里卷。

死磕多模态,图什么?

AGI叙事那一套就不说了,短期来看的话,谷歌这套多模态模型确实能赋能旗下不少产品。

AGI叙事那一套就不展开了。短期来看,谷歌这套多模态模型确实能赋能旗下不少产品——Stitch是一个,Pixel内置的P图是一个,NotebookLM的横空出世也蛮惊艳。

这次发的两个新模型,则让人看到了多模态在垂直场景落地的更多潜力。电商、装修、短视频……这些业务的需求是真的,钱也是真的。

加上有安卓生态加持,基本不用太担心商业化的问题。

Coding谷歌暂时追不上,但多模态这张牌桌,谷歌可能是唯一能组齐一套牌的玩家。

不过……

Gemni 3.5 Pro到底啥时候来啊!!!

视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒图4

参考链接:
[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


—  —


💬 希望掌握最新AI资讯,欢迎加入量子位「每日AI交流群」👇

💼 这里有大厂做模型的、有创业公司跑落地的、有媒体追热点的,也有VC看项目的。

🙌 添加小助手【qbitbot13】,备注「姓名-公司-职位」,审核通过后入群。

视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒图5


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
EMI
more
Gemini桌面端首发体验:谷歌憋了这么久,交出了一份「粗糙」答卷
谷歌悄悄加了个按钮,Gemini长出手脚变打工人!三巨头抢着教AI干活
谷歌Gemini个人智能功能接入Nano Banana图像生成,支持基于用户上下文的个性化创作
入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录
这类芯片设备,SEMI高度看好
Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?
谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮
库克谢幕之战苹果放弃自研AI!iPhone求助谷歌Gemini换脑Siri
Agent 编程大战升级、Google 地图接入 Gemini|AI 日报
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号