媲美Nano-Banana | 字节{全量开源}首个“风格+主题”「双修」模型,节省百万外包费!

AI产品汇 2025-09-01 07:45

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://bytedance.github.io/USO/

代码链接-https://github.com/bytedance/USO

试用链接-https://huggingface.co/spaces/bytedance-research/USO

论文链接-https://huggingface.co/papers/2508.18966



为什么需要这个算法?--现有方法通常将风格驱动和主题驱动的生成视为两个单独的任务:前者优先考虑风格相似性,而后者则坚持主题一致性,导致明显的对立结果。而作者却认为这两者可以很好的融合在一起。
这个算法能做什么?--USO是字节近期开源其“  风格主题大一统优化定制模型”,它不仅可以在任何场景中自由组合任何主题和任何风格,提供具有高主题/身份一致性和强烈风格保真度的输出,同时确保自然、逼真的肖像。
这个算法效果如何?--大量实验结果表明:USO在主题一致性和风格相似性两个维度上在开源模型中都达到了最先进的性能,性能不比nano banana差多少,而且还开源!

资讯配图


01-USO核心优势

资讯配图

    不止nano banana,字节近期开源其风格主题大一统优化定制模型USO这是UXO家族的最新成员。

    USO可以在任何场景中自由组合任何主题和任何风格,提供具有高主题/身份一致性和强烈风格保真度的输出,同时确保自然、逼真的肖像。

    可喜的是,字节这次将开源整个项目,包括训练代码、推理脚本、模型权重和数据集,从而推进研究并增强开源社区的能力。

02-USO落地场景

02.01-目标一致性生成
资讯配图
资讯配图
资讯配图
02.02-目标风格化生成
资讯配图
资讯配图
资讯配图
02.03-风格驱动生成
资讯配图
资讯配图
02.04-多风格驱动生成
资讯配图
资讯配图
02.05-风格&对象驱动生成/保留布局
资讯配图
资讯配图
02.06-风格&对象驱动生成/变换布局
资讯配图
资讯配图

03-USO上手指南

资讯配图

步骤1-访问https://huggingface.co/spaces/bytedance-research/USO链接

步骤2-在上图的红框中选择“内容参考图”、“风格参考图”、“额外的风格参考图”任务,上传相应的测试图片

步骤3-根据自己的需求对绿框中的参数进行修改

步骤4-点击上图的蓝框中的“Generate”,等待片刻即可

04-USO性能评估

04.01-主观效果评估
资讯配图
    上图展示了该方法与多个SOTA的目标驱动生成方法(Qwen-Image Edit、Flux.1-Kontext、OmniGen2、BAGEL、UNO)的定性比较结果。通过观察与分析,我们可以发现:该方法生成的图像更符合文本描述,可以很好的保持目标一致性。
资讯配图
    上图展示了该方法与多个SOTA的风格生成方法(StyleStudio、DreamO、CSGO、InstantStyle、DEADiff)在相同输入下的生成效果。通过观察与分析,我们可以发现:该方法生成的结果更符合文本描述,能够更好的将参考图的风格考虑进去。
04.02-客观指标评估
资讯配图
    上表展示了该方法与多个SOTA方法的目标生成和风格生成客观指标评估结果。通过观察与分析,我们可以发现:该方法的多项客观指标基本上都获得了最佳的得分结果,远优于其它的方法。

关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
拆解中美AI攻防战:深度解读中国AI的开源突围与西方的霸权封闭计划
风格与主体终于完美融合!字节USO模型打破AI绘画‘二选一’困境,开源界新爆款诞生
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
今晚直播|星海图 X Hugging Face!开源生态如何引领具身智能的未来?
热点丨开源大模型迎来新选择,字节跳动开源Seed-OSS系列模型
Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死
80%美国AI初创靠中国开源模型“吃饭”!a16z投资人震惊,全球开源榜前16名全被中国包揽
【AI】DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍
万物皆可“邪修”?科研党靠这个开源大模型“开挂”:能解化学题、能分析AFM图,有8B轻量版还能二次开发
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号