字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法

机器之心 2025-09-08 17:17
机器之心报道

编辑:杨文

打开多模态自由创作的大门。


谷歌 Nano Banana 掀起的全球创作狂欢尚未消退之际,字节又玩了把大的。


近日,字节跳动开始内测最新的豆包・图像创作模型 Seedream 4.0。与此前版本相比,Seedream 4.0 首次支持多模态生图,同一模型可以实现文生图、图像编辑、组图生成,并在核心能力上迎来了显著提升:



资讯配图

提示词:将平视视角改为俯视视角,将近景改为中景,并把画面比例改为 16:9。



资讯配图

提示词:根据参考图中两个男生的形象,生成一组动作片分镜,原比例。



资讯配图


从更长远的技术发展视角来看,多模态自由创作正成为大势所趋。无论是文本驱动、图像驱动,还是多图融合,用户都期待能以更自然、更随心的方式与 AI 协作。 


Seedream 4.0 内测一出,网友们就把它玩出了花。


比如基于多图融合能力,上传两张角色照片,再加上火柴人自拍动作,即可实现同框合影。


资讯配图

提示词:将图1男子和图2女子合进一张画面,参考图3姿势。


或者动动嘴就能给模特一键换时尚穿搭:


资讯配图

提示词:给图 1 模特穿上图 2 的穿搭。


我们也在第一时间拿到了内测资格。据机器之心了解,字节 Seedream 4.0 模型将很快在豆包、即梦全量上线,并通过火山引擎开放给企业客户


接下来还是老规矩,我们亲自上手体验一番,看看字节 Seedream 4.0 成色几何。


一手实测:多模态无缝融合释放创作自由


如今,图像生成已经不再是从文本到画面的单向创作。用户需要的也不仅仅是高质量的图像输出,更是一个能够在多模态输入间灵活切换、在生成与编辑之间无缝衔接的完整创作工具。


无论是单图参考、多图组合,还是基于文本与图像的自由融合,Seedream 4.0 都能在同一模型下完成从生成到编辑的一站式创作,让用户在效率与可控性上同时获得新的自由度。


多图输入、输出


先来试试它的多图融合能力。


我们上传了马斯克、奥特曼这对劲敌的半身照,以及一张手绘自拍动作参考图,并在提示词中指定将两位人物合并到同一画面,完成一张「世纪大和解」的自拍照。


模型不仅准确捕捉了参考姿势,还能在保证两位主体身份特征的同时,实现自然的构图与表情协调。不同来源的图像在风格与细节上被平滑统一,没有出现常见的「换脸违和感」或「姿势错乱」问题。


资讯配图

提示词:将图 1 男子和图 2 男子合进一张画面,参考图 3 姿势


除了多图输入,Seedream 4.0 还支持多图输出。比如上传一张情侣正面照,让它生成一组爱情片分镜。


Seedream 4.0 能够在严格遵循人物外观一致性的基础上,设计出超市购物、雨中撑伞等浪漫场景。这种输出方式避免了传统生成模型常见的形象漂移问题,让用户得到一整套故事化的图像。


资讯配图

提示词:根据参考图男生和女生的形象,生成一组爱情片分镜,原比例,不要改变男生和女生的相貌,不要改变他们的发型、衣服。


深度意图理解


在深度意图理解方面,Seedream 4.0 也展现出强大的场景重建能力。


我们上传了一张室内设计的线稿图,并要求将其改造成真实场景。模型实现了细节上的高度还原,从沙发、桌子、台灯等主要家具,到画框、绿植等小型装饰,都能做到几乎 1:1 的精准复刻。


这意味着,Seedream 4.0 并非只是填色或补全,而是真正理解了用户的意图,并在此基础上进行合理、完整的空间构建,生成结果真实,细节丰富,整体观感接近专业设计渲染效果。


资讯配图

提示词:把这个线稿改成真实的场景


Seedream 4.0 还能理解抽象符号与图像元素之间的关系。比如在一张瘦弱小猫的图片旁画上外扩箭头,它就能推理出我们的意图是让小猫变胖,最终生成画面中小猫体型明显更加圆润。


相比于只能依赖文字描述的模型,这种图文结合的意图解析使创作过程更加直观高效。


资讯配图

提示词:根据箭头方向改变小猫体型。


此外,上传一张人物摄影照片,它还能严格遵循文本要求进行逆向工程,描绘其创作过程。


资讯配图

提示词:展示布景搭建的场景,模特坐着滑手机,身后有一位女性正在帮她整理头发,背景里有一名男子站在梯子上挂幕布,幕布后露出摄影棚的环境。


高度特征保持


以往,图像编辑模型在细节还原和物体特性表现上,常常出现失真或不自然的现象,而此次 Seedream 4.0 提供了更高的稳定性与精准度。


比如将参考图转化为手办测试中,Seedream 4.0 不仅遵循了提示词的多重约束,还能让角色形象与参考图保持高度一致,盒子、电脑屏幕、底座等元素布局合理,模型生成的 PVC 透明度与光泽感也更接近实物效果。


资讯配图

提示词:把参考图片转化为一个角色手办,在手办背后放置一个印有该角色形象的盒子,并在旁边的电脑屏幕上显示 Blender 建模过程,盒子前方放一个圆形塑料底座,角色手办立在上面,让 PVC 材质看起来清晰透亮,场景尽量设置在室内。


Seedream 4.0 这一功能在商业化场景中大有作为。


我们上传了两只小狗飞奔的图片和一张白色帆布包的产品照,并输入提示词「图 2 帆布包上印着图 1 形象」。


模型在处理跨图像的组合任务时,能精准捕捉主体特征、图像比例,并将其协调融入目标物体之中,避免了贴图感。


资讯配图

提示词:图 2 帆布包上印着图 1 形象


我们还可以制作表情包,Seedream 4.0 忠实还原了仕女的服饰与造型特色,并充分发挥想象力,生成扮鬼脸、打哈欠、比耶、愤怒等多款生动表情,角色形象和画风均没有走样。


资讯配图

提示词:参考图片形象生成一组搞怪表情包


精准指令编辑


对于增删改替常规玩法,Seedream 4.0 也有了较大进步。


比如让男生戴上耳机和墨镜,并手捧一束花,模型自然完成了三项元素的添加。耳机、墨镜与花束都与人物形象高度契合,整体效果真实自然。


资讯配图

提示词:让男生戴上头戴式耳机,戴着墨镜,手捧一束花


或者删除背景中杂乱的路人,模型不仅把这些无关元素删除得干净利落,还能自然填充背景,画面衔接流畅,完全看不出 P 图痕迹。


资讯配图

提示词:删除背景中的路人


即使是更为复杂的任务,如更换人物发型,Seedream 4.0 也能在保证面部特征和气质一致性的基础上,流畅转换发型,发丝细节丰富,还避免了因局部修改导致的整体失真。


资讯配图

提示词:将参考图中的女生发型分别改为大波浪卷、高马尾、丸子头


为了让大家能玩明白,官方还总结出了一套提示词指南。



与 Nano Banana 同台竞技


为了更直观地展现字节 Seedream 4.0 和谷歌 Nano Banana 这两款模型的差异与优势,我们将其进行了多项对比测试。


Round1:生成 OOTD


资讯配图

图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana. 提示词:请根据上传的参考照片,生成一张俯拍平铺的 OOTD 穿搭图,服装、配饰、鞋子需与上传的参考照片 1:1 复刻。


从结果来看,Seedream 4.0 与 Nano Banana 的整体表现都接近预期,能够较好地还原出参考造型的整体搭配与构图。


不过在材质精准性与细节控制上仍有优化空间,Seedream 4.0 生成的毛线马甲材质对不上号,Nano Banana 则是纹理不对,同时在生成的包袋上额外出现了一条肩带。


Round2: 一键换衣


我们又上传了一张模特照和一张 OOTD 俯拍平铺图,并输入提示词:Change the outfit with the uploaded one.


资讯配图

图 1、图 2 为原图;图 3 为 Seedream 4.0 生成效果;图 4 为 Nano Banana 生成效果。提示词:Change the outfit with the uploaded one.


这两款模型都能够严格遵循提示词要求,将参考穿搭准确替换到模特身上,整体效果自然,服装细节和轮廓基本与参考图一致。


Round3: 漫画分镜


漫画分镜的生成是对模型理解力与画面统筹能力的综合考验。


我们以一张吉卜力风格的女孩形象为参考,要求模型延展出两组治愈系场景。


资讯配图

图 1 为原图;图 2、图 3 为 Seedream 4.0 生成效果;图 4、图 5 为 Nano Banana 生成效果。提示词:参考这张图的画风和人物形象,生成一组治愈系漫画:1. 骑着自行车在山间小路上行驶;2. 穿着透明雨衣,雨衣表面有水珠,右手提着装满鲜红番茄的柳条篮子,行走在泥泞乡间小路,小路两侧是繁茂番茄田(红番茄挂藤,绿叶带雨),田边点缀白 / 粉 / 黄 / 蓝野花,细雨纷飞。


两者在复杂分镜生成方面都已具备成熟能力,Nano Banana 一如既往稳定,Seedream 4.0 则在画面色彩搭配上更加鲜明,整体清晰度也更高。


Round4: 修复老照片


我们又上传了一张破损严重的旧照,并要求这俩模型进行自动修复。


资讯配图

图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana。提示词:Restore this photograph. 


它们的处理结果都达到了可用水准,能够有效去除照片中的裂痕与瑕疵,并在保持原有影像风格的前提下,恢复出较为完整的画面。


二者实力几乎不相上下,Seedream 4.0 的成片更清晰,人物面部轮廓与背景纹理表现得更加锐利; Nano Banana 的颗粒感更强,也更有老照片的味道。


Round5: 中文排版


在涉及中文文本生成与排版的任务中,Seedream 4.0 能将英文正确替换为中文,书写感真实,整体与封面设计协调一致;而 Nano Banana 在这一任务中则出现了明显问题,生成的文字难以辨认,呈现出类似「鬼画符」的效果。


资讯配图

图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana。提示词:Change the text on the image to "时尚芭莎" in a handwritten style.


综合这五项测试结果来看,Seedream 4.0 与 Nano Banana 在图像生成与编辑的核心能力上都展现了较高水准,能够较好地理解复杂提示词并生成符合要求的内容。


两相对比,Nano Banana 在多图融合中主体一致性更稳定,而 Seedream 4.0 则在美感、清晰度以及中文排版等方面表现更为突出,尤其在多语言环境与高精度任务中展现出明显优势。


可以预见,在多模态与生成式 AI 的赛道上,竞争将持续加速,而用户也将因此获得更丰富、更具想象力的创作体验。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
美的TCL追觅制霸IFA!空调的未来不只是AI
新华三AI服务器研发总监刘善高:超节点集群的思考与实践
传闻 AirPods Pro 3 有两个版本,售价超 2000 元“高配版”将在明年推出
抢外卖还是拼AI:互联网“五虎”半年业绩透露什么?
智谱Z.AI聊天机器人全球增速榜第一,阿里WanAI第四|AI产品榜·网站榜2025年8月
AI图生图大乱斗|谷歌nano-banana、OpenAI、字节Seedream 4.0、阿里Qwen
学术前沿丨摆脱GPU依赖!Nature发布「物理神经网络」综述:实现大规模、高效AI训练与推理
扣子空间,偷偷搞全了AI Office
AI大势掀风口,永光光刻胶获多家晶圆厂认证
DeepSeek新模型曝光,梁文锋亲自督战,要和OpenAI硬碰硬
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号