字节Seedream 4.0将全量开放！抢先评测来了，我们摸索出AI生图20种「邪修」玩法

机器之心报道

编辑：杨文

打开多模态自由创作的大门。

谷歌 Nano Banana 掀起的全球创作狂欢尚未消退之际，字节又玩了把大的。

近日，字节跳动开始内测最新的豆包・图像创作模型 Seedream 4.0。与此前版本相比，Seedream 4.0 首次支持多模态生图，同一模型可以实现文生图、图像编辑、组图生成，并在核心能力上迎来了显著提升：

主体一致性增强：无论是文本驱动还是图像驱动，都能稳健保持主体特征，避免「失真」与「错位」。

提示词：将平视视角改为俯视视角，将近景改为中景，并把画面比例改为 16：9。

多图灵活创作：支持文本、图像的多维组合输入，轻松实现参考生成、融合生成与编辑。

提示词：根据参考图中两个男生的形象，生成一组动作片分镜，原比例。

超高清、超高速直出：最高支持 4K 分辨率输出，且推理效率大幅优化，2K 大分辨率图像生成用时仅需数秒。

从更长远的技术发展视角来看，多模态自由创作正成为大势所趋。无论是文本驱动、图像驱动，还是多图融合，用户都期待能以更自然、更随心的方式与 AI 协作。

Seedream 4.0 内测一出，网友们就把它玩出了花。

比如基于多图融合能力，上传两张角色照片，再加上火柴人自拍动作，即可实现同框合影。

提示词：将图1男子和图2女子合进一张画面，参考图3姿势。

或者动动嘴就能给模特一键换时尚穿搭：

提示词：给图 1 模特穿上图 2 的穿搭。

我们也在第一时间拿到了内测资格。据机器之心了解，字节 Seedream 4.0 模型将很快在豆包、即梦全量上线，并通过火山引擎开放给企业客户。

接下来还是老规矩，我们亲自上手体验一番，看看字节 Seedream 4.0 成色几何。

一手实测：多模态无缝融合释放创作自由

如今，图像生成已经不再是从文本到画面的单向创作。用户需要的也不仅仅是高质量的图像输出，更是一个能够在多模态输入间灵活切换、在生成与编辑之间无缝衔接的完整创作工具。

无论是单图参考、多图组合，还是基于文本与图像的自由融合，Seedream 4.0 都能在同一模型下完成从生成到编辑的一站式创作，让用户在效率与可控性上同时获得新的自由度。

多图输入、输出

先来试试它的多图融合能力。

我们上传了马斯克、奥特曼这对劲敌的半身照，以及一张手绘自拍动作参考图，并在提示词中指定将两位人物合并到同一画面，完成一张「世纪大和解」的自拍照。

模型不仅准确捕捉了参考姿势，还能在保证两位主体身份特征的同时，实现自然的构图与表情协调。不同来源的图像在风格与细节上被平滑统一，没有出现常见的「换脸违和感」或「姿势错乱」问题。

提示词：将图 1 男子和图 2 男子合进一张画面，参考图 3 姿势

除了多图输入，Seedream 4.0 还支持多图输出。比如上传一张情侣正面照，让它生成一组爱情片分镜。

Seedream 4.0 能够在严格遵循人物外观一致性的基础上，设计出超市购物、雨中撑伞等浪漫场景。这种输出方式避免了传统生成模型常见的形象漂移问题，让用户得到一整套故事化的图像。

提示词：根据参考图男生和女生的形象，生成一组爱情片分镜，原比例，不要改变男生和女生的相貌，不要改变他们的发型、衣服。

深度意图理解

在深度意图理解方面，Seedream 4.0 也展现出强大的场景重建能力。

我们上传了一张室内设计的线稿图，并要求将其改造成真实场景。模型实现了细节上的高度还原，从沙发、桌子、台灯等主要家具，到画框、绿植等小型装饰，都能做到几乎 1:1 的精准复刻。

这意味着，Seedream 4.0 并非只是填色或补全，而是真正理解了用户的意图，并在此基础上进行合理、完整的空间构建，生成结果真实，细节丰富，整体观感接近专业设计渲染效果。

提示词：把这个线稿改成真实的场景

Seedream 4.0 还能理解抽象符号与图像元素之间的关系。比如在一张瘦弱小猫的图片旁画上外扩箭头，它就能推理出我们的意图是让小猫变胖，最终生成画面中小猫体型明显更加圆润。

相比于只能依赖文字描述的模型，这种图文结合的意图解析使创作过程更加直观高效。

提示词：根据箭头方向改变小猫体型。

此外，上传一张人物摄影照片，它还能严格遵循文本要求进行逆向工程，描绘其创作过程。

提示词：展示布景搭建的场景，模特坐着滑手机，身后有一位女性正在帮她整理头发，背景里有一名男子站在梯子上挂幕布，幕布后露出摄影棚的环境。

高度特征保持

以往，图像编辑模型在细节还原和物体特性表现上，常常出现失真或不自然的现象，而此次 Seedream 4.0 提供了更高的稳定性与精准度。

比如将参考图转化为手办测试中，Seedream 4.0 不仅遵循了提示词的多重约束，还能让角色形象与参考图保持高度一致，盒子、电脑屏幕、底座等元素布局合理，模型生成的 PVC 透明度与光泽感也更接近实物效果。

提示词：把参考图片转化为一个角色手办，在手办背后放置一个印有该角色形象的盒子，并在旁边的电脑屏幕上显示 Blender 建模过程，盒子前方放一个圆形塑料底座，角色手办立在上面，让 PVC 材质看起来清晰透亮，场景尽量设置在室内。

Seedream 4.0 这一功能在商业化场景中大有作为。

我们上传了两只小狗飞奔的图片和一张白色帆布包的产品照，并输入提示词「图 2 帆布包上印着图 1 形象」。

模型在处理跨图像的组合任务时，能精准捕捉主体特征、图像比例，并将其协调融入目标物体之中，避免了贴图感。

提示词：图 2 帆布包上印着图 1 形象

我们还可以制作表情包，Seedream 4.0 忠实还原了仕女的服饰与造型特色，并充分发挥想象力，生成扮鬼脸、打哈欠、比耶、愤怒等多款生动表情，角色形象和画风均没有走样。

提示词：参考图片形象生成一组搞怪表情包

精准指令编辑

对于增删改替常规玩法，Seedream 4.0 也有了较大进步。

比如让男生戴上耳机和墨镜，并手捧一束花，模型自然完成了三项元素的添加。耳机、墨镜与花束都与人物形象高度契合，整体效果真实自然。

提示词：让男生戴上头戴式耳机，戴着墨镜，手捧一束花

或者删除背景中杂乱的路人，模型不仅把这些无关元素删除得干净利落，还能自然填充背景，画面衔接流畅，完全看不出 P 图痕迹。

提示词：删除背景中的路人

即使是更为复杂的任务，如更换人物发型，Seedream 4.0 也能在保证面部特征和气质一致性的基础上，流畅转换发型，发丝细节丰富，还避免了因局部修改导致的整体失真。

提示词：将参考图中的女生发型分别改为大波浪卷、高马尾、丸子头

为了让大家能玩明白，官方还总结出了一套提示词指南。

使用清晰明确的指令通常能实现更好的编辑效果，常见公式为「变化动作 + 变化对象 + 变化特征」，比如将骑士的头盔变为金色。这里，变化动作指的是需要执行的操作，如移除、添加、替换、参考等；变化对象包括主体、背景、光影、色彩等；变化特征则是希望变化后呈现的效果。

当需要将多张图片合成一张时，可以通过「一系列」、「组图」或「帮我生成几张图」等提示词触发组图功能，最多支持生成 9 张图片。

如果需要保持特定角色形象、产品信息或风格一致性，可以上传图像作为参考。

使用精确的风格词或直接输入图像作为风格参考，有助于获得更理想的效果。

上传多张参考图时，明确指出不同图片需参考或编辑的不同元素，可以提高生成结果的精准度。例如：将图 1 中的角色放入图 2 的背景中，参考图 3 的风格进行生成。

与 Nano Banana 同台竞技

为了更直观地展现字节 Seedream 4.0 和谷歌 Nano Banana 这两款模型的差异与优势，我们将其进行了多项对比测试。

Round1：生成 OOTD

图 1 为原图；图 2 为 Seedream 4.0；图 3 为 Nano Banana. 提示词：请根据上传的参考照片，生成一张俯拍平铺的 OOTD 穿搭图，服装、配饰、鞋子需与上传的参考照片 1:1 复刻。

从结果来看，Seedream 4.0 与 Nano Banana 的整体表现都接近预期，能够较好地还原出参考造型的整体搭配与构图。

不过在材质精准性与细节控制上仍有优化空间，Seedream 4.0 生成的毛线马甲材质对不上号，Nano Banana 则是纹理不对，同时在生成的包袋上额外出现了一条肩带。

Round2: 一键换衣

我们又上传了一张模特照和一张 OOTD 俯拍平铺图，并输入提示词：Change the outfit with the uploaded one.

图 1、图 2 为原图；图 3 为 Seedream 4.0 生成效果；图 4 为 Nano Banana 生成效果。提示词：Change the outfit with the uploaded one.

这两款模型都能够严格遵循提示词要求，将参考穿搭准确替换到模特身上，整体效果自然，服装细节和轮廓基本与参考图一致。

Round3: 漫画分镜

漫画分镜的生成是对模型理解力与画面统筹能力的综合考验。

我们以一张吉卜力风格的女孩形象为参考，要求模型延展出两组治愈系场景。

图 1 为原图；图 2、图 3 为 Seedream 4.0 生成效果；图 4、图 5 为 Nano Banana 生成效果。提示词：参考这张图的画风和人物形象，生成一组治愈系漫画：1. 骑着自行车在山间小路上行驶；2. 穿着透明雨衣，雨衣表面有水珠，右手提着装满鲜红番茄的柳条篮子，行走在泥泞乡间小路，小路两侧是繁茂番茄田（红番茄挂藤，绿叶带雨），田边点缀白 / 粉 / 黄 / 蓝野花，细雨纷飞。

两者在复杂分镜生成方面都已具备成熟能力，Nano Banana 一如既往稳定，Seedream 4.0 则在画面色彩搭配上更加鲜明，整体清晰度也更高。

Round4: 修复老照片

我们又上传了一张破损严重的旧照，并要求这俩模型进行自动修复。

图 1 为原图；图 2 为 Seedream 4.0；图 3 为 Nano Banana。提示词：Restore this photograph.

它们的处理结果都达到了可用水准，能够有效去除照片中的裂痕与瑕疵，并在保持原有影像风格的前提下，恢复出较为完整的画面。

二者实力几乎不相上下，Seedream 4.0 的成片更清晰，人物面部轮廓与背景纹理表现得更加锐利； Nano Banana 的颗粒感更强，也更有老照片的味道。

Round5: 中文排版

在涉及中文文本生成与排版的任务中，Seedream 4.0 能将英文正确替换为中文，书写感真实，整体与封面设计协调一致；而 Nano Banana 在这一任务中则出现了明显问题，生成的文字难以辨认，呈现出类似「鬼画符」的效果。

图 1 为原图；图 2 为 Seedream 4.0；图 3 为 Nano Banana。提示词：Change the text on the image to "时尚芭莎" in a handwritten style.

综合这五项测试结果来看，Seedream 4.0 与 Nano Banana 在图像生成与编辑的核心能力上都展现了较高水准，能够较好地理解复杂提示词并生成符合要求的内容。

两相对比，Nano Banana 在多图融合中主体一致性更稳定，而 Seedream 4.0 则在美感、清晰度以及中文排版等方面表现更为突出，尤其在多语言环境与高精度任务中展现出明显优势。

可以预见，在多模态与生成式 AI 的赛道上，竞争将持续加速，而用户也将因此获得更丰富、更具想象力的创作体验。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com