Qwen开源版Banana来了!原生支持ControlNet

量子位 2025-09-23 16:13
时令 发自 凹非寺
量子位 | 公众号 QbitAI

Qwen版Banana来了!

刚刚,Qwen推出了新图像编辑模型——Qwen-Image-Edit-2509。

不仅支持多图融合,提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法,还增强了人物、商品、文字等单图一致性

资讯配图

除此之外,它还原生支持ControlNet,可通过关键点图改变人物姿势,还可轻松实现换装需求。

图像编辑之余,Qwen还开源了端到端全模态模型Qwen3-omni,表现也可圈可点。既可当语音翻译助手,还能立不同的人设,甚至支持方言输出。

下面具体来看。

支持多图输入

新图像编辑的首要更新就是支持了多图输入

先看一个“人物+人物”生成结婚照的例子。

输入两张图片:

资讯配图

然后,输入以下提示词:

资讯配图

结果闪亮登场:

资讯配图

不喜欢中式婚礼的也没事,我们还可以生成西式的,主打一个用户就是上帝。

资讯配图

再看“人物+场景”的应用,感觉可轻轻松松实现环球旅行。

资讯配图

令我比较惊讶的是,这还真不是简单的图像拼接,它甚至贴合场景改变了主角的神态,闭眼享受阳光的动作、躺椅上的影子,说实话,p图我都p不出来这么细。

下面轮到“人物+物体”了,我把它称为最快拥有奢侈品包包和豪车的方式。

资讯配图

此外,多图输入也支持ControlNet常用的关键点图,比如改变人物姿势。

资讯配图

还能在改变关键点的同时,进行换装。

资讯配图

除此之外,普通证件照、形象照、生活照也是so easy。

资讯配图

想要Banana大火的美式精英风?无论是半身还是全身照,你想要的Qwen都有。

资讯配图

还能进行不同的姿势编辑,俏皮、比心、举黑板都是不在话下。

资讯配图

基于新模型上述图像编辑能力,再加上其本身特色的文字生成能力,团队发现它还很擅长制作表情包。

资讯配图

当然,对于更长的文字,新模型也依然可以在保持人物一致性的前提下进行渲染。

资讯配图

更有意思的是,它还可以给老照片进行修复,比如给照片上色。

资讯配图

还可以修复破损照片。

资讯配图

但是,这个美颜……

除了真实人物,生成卡通玩偶、文创也是分分钟的事啦。

资讯配图

咦?这左下角不就是Nano Banana爆火的手办吗?Qwen新模型效果看起来也是很不错的。

1个物品太简单了,咱们再换个有14只猫的图片试一下。

资讯配图

哇哦,猫的数量是对的,效果也是相当可以。

除了图像方面,新模型还专门增强了文字一致性,支持了包括字体类型编辑、字体颜色编辑和字体材质编辑。

资讯配图

此外,它还支持定点文字编辑,细致到可将圈出来的错字进行定点修改。

效果是这样滴:

资讯配图

不仅如此,新模型还支持深度图控制,保持物体与场景的一致性。

资讯配图

哎呀,这泥泞的道路、茂盛的丛林、真实的车辙印,真的不是户外山地车的广告吗?

只有关键点也不耽误出图,无论男女、无论古代还是现代、无论什么穿着,Qwen都能统统搞定。

资讯配图

最后就是根据草图来控制生图,这一老一少真给人一种时光穿梭的感觉,再配个bgm氛围感直接拉满。

资讯配图

还有端到端全模态模型

Qwen不仅在图像编辑上表现优异,它还开源了端到端、全模态大模型Qwen3-omni,不仅能够无缝处理文本、音频、图像和视频等多种输入形式,还能边生成文字边实时合成语音。

资讯配图

主要特点如下所示:

跨模态的领先性能:在36项音频及音视频基准测试中,Qwen3-omni斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。

资讯配图

多语言方面:Qwen3-omni支持119种文本语言、19种语音输入语言和10种语音输出语言。

效果be like:

不仅是实时翻译助手,还能直接总结网页内容,然后用你所需要的语言输出。

更快响应:端到端音频对话延迟低至211ms,视频对话延迟低至507ms。

长音频:支持长达30分钟音频理解。

个性化:支持system prompt随意定制,可以修改回复风格,人设等。

比如广东幼儿园老师或是四川女汉子。

咦,那么问题来了,这些方言是否标准噻?

工具调用:支持function call,实现与外部工具/服务的高效集成。

开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

不仅能分析音乐风格,还能推理数学题,甚至还能当起语音助手唤醒其他应用。

这花里胡哨的功能真是令人眼花缭乱,感兴趣的读者赶紧去试试吧。

参考链接:
[1]https://huggingface.co/Qwen/Qwen-Image-Edit-2509
[2]https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
[3]https://github.com/QwenLM/Qwen3-Omni

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


🏆 年度科技风向标「2025人工智能年度榜单」评选报名开启!我们正在寻找AI+时代领航者 点击了解详情

❤️‍🔥 企业、产品、人物3大维度,共设立了5类奖项,欢迎企业报名参与 👇 

资讯配图

一键关注 👇 点亮星标

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
Wan2.2-Animate-14B开源!地表最强开源角色动画模型媲美商用: 表情动作1:1完美复制!
阿里开源「深度研究」王炸Agent,登顶开源Agent模型榜首
深度解析宇树UnifoLM-WMA-0开源模型!
刚刚,稚晖君又开源了
攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
快讯|周鸿祎直播试吃机器人炒菜;优必选与富士康云智汇达成战略合作;OpenMind开源全球首个AI原生开源机器人系统发布
Qwen开源版Banana来了!原生支持ControlNet
阿里Qwen3-Omni开源发布,重新定义多模态,继GPT-4o之后,真正的全能AI来了?
日报:通义DeepResearch开源,重塑AI科研流程|面壁智能发布SOTA语音生成基座模型
ICCV'25开源|FiVE-Bench:精细视频编辑新基准,揭示扩散与整流流模型实力
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号