媲美Nano-Banana | 字节{全量开源}首个“风格+主题”「双修」模型,节省百万外包费!

AI产品汇 2025-09-01 07:45

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://bytedance.github.io/USO/

代码链接-https://github.com/bytedance/USO

试用链接-https://huggingface.co/spaces/bytedance-research/USO

论文链接-https://huggingface.co/papers/2508.18966



为什么需要这个算法?--现有方法通常将风格驱动和主题驱动的生成视为两个单独的任务:前者优先考虑风格相似性,而后者则坚持主题一致性,导致明显的对立结果。而作者却认为这两者可以很好的融合在一起。
这个算法能做什么?--USO是字节近期开源其“  风格主题大一统优化定制模型”,它不仅可以在任何场景中自由组合任何主题和任何风格,提供具有高主题/身份一致性和强烈风格保真度的输出,同时确保自然、逼真的肖像。
这个算法效果如何?--大量实验结果表明:USO在主题一致性和风格相似性两个维度上在开源模型中都达到了最先进的性能,性能不比nano banana差多少,而且还开源!

资讯配图


01-USO核心优势

资讯配图

    不止nano banana,字节近期开源其风格主题大一统优化定制模型USO这是UXO家族的最新成员。

    USO可以在任何场景中自由组合任何主题和任何风格,提供具有高主题/身份一致性和强烈风格保真度的输出,同时确保自然、逼真的肖像。

    可喜的是,字节这次将开源整个项目,包括训练代码、推理脚本、模型权重和数据集,从而推进研究并增强开源社区的能力。

02-USO落地场景

02.01-目标一致性生成
资讯配图
资讯配图
资讯配图
02.02-目标风格化生成
资讯配图
资讯配图
资讯配图
02.03-风格驱动生成
资讯配图
资讯配图
02.04-多风格驱动生成
资讯配图
资讯配图
02.05-风格&对象驱动生成/保留布局
资讯配图
资讯配图
02.06-风格&对象驱动生成/变换布局
资讯配图
资讯配图

03-USO上手指南

资讯配图

步骤1-访问https://huggingface.co/spaces/bytedance-research/USO链接

步骤2-在上图的红框中选择“内容参考图”、“风格参考图”、“额外的风格参考图”任务,上传相应的测试图片

步骤3-根据自己的需求对绿框中的参数进行修改

步骤4-点击上图的蓝框中的“Generate”,等待片刻即可

04-USO性能评估

04.01-主观效果评估
资讯配图
    上图展示了该方法与多个SOTA的目标驱动生成方法(Qwen-Image Edit、Flux.1-Kontext、OmniGen2、BAGEL、UNO)的定性比较结果。通过观察与分析,我们可以发现:该方法生成的图像更符合文本描述,可以很好的保持目标一致性。
资讯配图
    上图展示了该方法与多个SOTA的风格生成方法(StyleStudio、DreamO、CSGO、InstantStyle、DEADiff)在相同输入下的生成效果。通过观察与分析,我们可以发现:该方法生成的结果更符合文本描述,能够更好的将参考图的风格考虑进去。
04.02-客观指标评估
资讯配图
    上表展示了该方法与多个SOTA方法的目标生成和风格生成客观指标评估结果。通过观察与分析,我们可以发现:该方法的多项客观指标基本上都获得了最佳的得分结果,远优于其它的方法。

关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
NVIDIA ACE 新增对开源 Qwen3 SLM 模型的支持
分享一个高效的串口通讯开源方案
多家手机厂商取消Air产品线/DeepSeek新开源模型达奥数金牌水平/3799起,夸克AI眼镜发布
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
IROS 2025-Challenge冠军方案:X-VLA重磅开源,全面刷新机器人基准性能记录
DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
从零到千万:一个中国开源操作系统的全球崛起之路
性能超越GPT和Google,北京人形机器人创新中心开源全球最强具身VLM
GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌
ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号