媲美Nano-Banana | 字节{全量开源}首个“风格+主题”「双修」模型,节省百万外包费!

AI产品汇 2025-09-01 07:45

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://bytedance.github.io/USO/

代码链接-https://github.com/bytedance/USO

试用链接-https://huggingface.co/spaces/bytedance-research/USO

论文链接-https://huggingface.co/papers/2508.18966



为什么需要这个算法?--现有方法通常将风格驱动和主题驱动的生成视为两个单独的任务:前者优先考虑风格相似性,而后者则坚持主题一致性,导致明显的对立结果。而作者却认为这两者可以很好的融合在一起。
这个算法能做什么?--USO是字节近期开源其“  风格主题大一统优化定制模型”,它不仅可以在任何场景中自由组合任何主题和任何风格,提供具有高主题/身份一致性和强烈风格保真度的输出,同时确保自然、逼真的肖像。
这个算法效果如何?--大量实验结果表明:USO在主题一致性和风格相似性两个维度上在开源模型中都达到了最先进的性能,性能不比nano banana差多少,而且还开源!

资讯配图


01-USO核心优势

资讯配图

    不止nano banana,字节近期开源其风格主题大一统优化定制模型USO这是UXO家族的最新成员。

    USO可以在任何场景中自由组合任何主题和任何风格,提供具有高主题/身份一致性和强烈风格保真度的输出,同时确保自然、逼真的肖像。

    可喜的是,字节这次将开源整个项目,包括训练代码、推理脚本、模型权重和数据集,从而推进研究并增强开源社区的能力。

02-USO落地场景

02.01-目标一致性生成
资讯配图
资讯配图
资讯配图
02.02-目标风格化生成
资讯配图
资讯配图
资讯配图
02.03-风格驱动生成
资讯配图
资讯配图
02.04-多风格驱动生成
资讯配图
资讯配图
02.05-风格&对象驱动生成/保留布局
资讯配图
资讯配图
02.06-风格&对象驱动生成/变换布局
资讯配图
资讯配图

03-USO上手指南

资讯配图

步骤1-访问https://huggingface.co/spaces/bytedance-research/USO链接

步骤2-在上图的红框中选择“内容参考图”、“风格参考图”、“额外的风格参考图”任务,上传相应的测试图片

步骤3-根据自己的需求对绿框中的参数进行修改

步骤4-点击上图的蓝框中的“Generate”,等待片刻即可

04-USO性能评估

04.01-主观效果评估
资讯配图
    上图展示了该方法与多个SOTA的目标驱动生成方法(Qwen-Image Edit、Flux.1-Kontext、OmniGen2、BAGEL、UNO)的定性比较结果。通过观察与分析,我们可以发现:该方法生成的图像更符合文本描述,可以很好的保持目标一致性。
资讯配图
    上图展示了该方法与多个SOTA的风格生成方法(StyleStudio、DreamO、CSGO、InstantStyle、DEADiff)在相同输入下的生成效果。通过观察与分析,我们可以发现:该方法生成的结果更符合文本描述,能够更好的将参考图的风格考虑进去。
04.02-客观指标评估
资讯配图
    上表展示了该方法与多个SOTA方法的目标生成和风格生成客观指标评估结果。通过观察与分析,我们可以发现:该方法的多项客观指标基本上都获得了最佳的得分结果,远优于其它的方法。

关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
T-ASE'26开源 | ObjSplat:几何感知的主动高保真物体重建新框架!显著减少冗余扫描,分钟级生成高保真数字资产
百度开源无限OCR,跑通长程解析,核心作者YY疑是来自DeepSeek
没想到 PI 押注的真机RL,这家公司把他做到了全球大规模开源
当 FPGA 开始“复活”386:一个开源 i386 CPU 竟然跑起了 Doom
Codex兼容国产开源模型!实测DeepSeek接入:门槛还是太高
腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操
脑机电极 | E-Link 256开源方案:一种基于"软互连"的高密度柔性脑机探针连接器
清华开源视频生成加速框架:无需重训练,视频生成提速1.8倍,质量几乎无损
精彩亮点抢先看!6月25日开源欧拉使能智能化基础设施论坛即将开启
一个“最像教科书”的开源RISC-V SoC:NEORV32
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号