字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持

量子位 2025-09-04 12:38
字节UXO团队 投稿
量子位 | 公众号 QbitAI

图像生成中的多指标一致性问题,被字节团队解决了!

字节UXO团队设计并开源了统一框架USO,让看上去不关联的任务相互促进,实现风格迁移和主体保持单任务和组合任务的SOTA

USO通过单一框架能统一之前那些看似孤立的任务包括主体、身份保持和风格化编辑,参考图风格迁移,同时保持主体和风格参考,甚至更抽象复杂的多风格迁移,是实打实的六边形战士。

资讯配图

网友们争相围观,甚至有人直接拿来和当前火爆的闭源模型对比,发现USO弥补了难以同时做好主体保持和风格迁移的短板。

资讯配图

一个模型搞定人物/主体/风格保持

通过单一模型且仅通过一张参考图,USO就能搞定你想要的主体、人物或是风格。

比如说,以卡通人物为例,让他在街上驾驶小车:

资讯配图

又比如说,积木风格,让这个男人在咖啡厅看书:

资讯配图

或者前阵子大火的吉卜力风格,也可以通过参考风格实现,比如一个男孩站在巨大的猫前“

资讯配图

或者抽象的材质参考,也能轻松处理,比如生成一个大厨在炒菜:

资讯配图

那么再大胆点,混合风格呢,比如生成一个男子:

资讯配图

或者同时参考人物ID和风格图片,然后让她抱着一只猫呢,可以看到最终结果在保留ID基础上完美还原扁平风格(设计党狂喜):

资讯配图

以上种种应用场景,USO都能轻松处理,甚至画面质量不输一些商业大模型。

为了全面评估模型性能,团队首次设计了一个USO-Bench,全面评估不同任务类型的性能,分别包括主体驱动,风格驱动以及主体风格混合驱动生成,并且对比了一众最新模型。

资讯配图

最终,UNO在三大任务上都处于领先水平。

并且研究团队还进行了用户研究,结果显示,USO在所有评估维度上都获得了较高评价,特别是主体一致性、风格一致性和画面质量上表现最为突出

资讯配图

跨任务自解耦

USO采用了一种“跨任务自解耦”的新范式,核心思想是让模型根据不同任务类型学习想要包含的特征,从而从根本上增强模型的学习能力。

在模型架构上,USO以开源模型FLUX.1 dev为基础,设计了风格对齐训练以及内容-风格解耦训练:

资讯配图

此外研究团队首次提出了风格奖励学习(SRL)算法,这是一种为Flow Matching设计的带参考图的强化学习算法。

其奖励函数来自衡量风格一致性的奖励模型数学映射,配合预训练损失监督模型训练,最终进一步促进内容和风格的解耦。

另外作者也提到,强化学习的加入让模型在别的任务上也得到了性能提升,进一步验证跨任务对齐的有效性。

资讯配图

在数据方面,团队构建了一套跨任务数据合成框架,创新性地提出同时构建布局改变和布局保留的三元组数据。

通过训练UNO模型得到一个风格化和去风格化的专家模型,然后利用这两个专家模型生成大批量三元组数据,最后通过VLM过滤出用于训练USO的数据集。

资讯配图

更多细节请参考该方法的技术报告。

论文地址:https://arxiv.org/abs/2508.18966
项目主页:https://bytedance.github.io/USO/
代码仓库:https://github.com/bytedance/USO
HuggingFace在线demo:https://huggingface.co/spaces/bytedance-research/USO

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
风格与主体终于完美融合!字节USO模型打破AI绘画‘二选一’困境,开源界新爆款诞生
RLinf开源!首个面向具身智能“渲训推一体化”的大规模强化学习框架
美团开源的LongCat有这么多技术细节!附实测案例
又一国产多模态大模型开源,复杂声音一耳朵分辨,多测试SOTA,还能聊哲学
AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快
清华崔鹏团队开源LimiX:首个结构化数据通用大模型,性能超越SOTA专用模型
80%美国AI初创靠中国开源模型“吃饭”!a16z投资人震惊,全球开源榜前16名全被中国包揽
拆解二毛星链无人机:采用mosaic-X5模组,还有开源飞控、国产ESP32模组
腾讯开源智能体新框架:不用训练无需充值,用开源模型实现SOTA Agent
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号