理解、生成、编辑一次搞定：Skywork UniPic 2.0的统一多模态解法｜甲子光年

让创作不再中断。

作者｜田思奇

编辑｜栗子

周四下午，电商团队临时接到任务：促销海报临时加量，文案再改两版，主视觉再出三套。设计师匆忙地在三种工具间来回折返：先识图找素材，再生图出草稿，最后到P图软件修改局部。每一次导入导出，都在消耗时间和风格统一度。

许多依赖视觉内容的行业，都可能面临类似的阻碍：创意没有通过技术放大，反而被切碎在流程里。即便生成式AI已经上了线，团队仍在做搬运工作，像是把零件交给不同软件排队加工。

目前行业需要的，是一次接入就能贯通理解、生成、编辑的统一架构，减少沟通成本与返工风险，把人从工具切换里解放出来。

在开源社区，目前已有FLUX-Kontext、BAGEL等探索，证明了方向可行。但它们体量大、推理慢，对硬件要求高，相对更适合实验室，而非日常生产。

对广告、电商、媒体、教育、游戏等行业来说，如果能以较低的技术门槛运行统一且高效的多模态图像框架，不仅能加快设计，还能改进跨部门协作、素材复用和品牌管理。

作为中国头部AI企业，昆仑万维在8月11日至8月15日举行的Skywork AI技术发布周中，展示了其多模态系统的模型能力。8月13日，昆仑万维正式发布Skywork UniPic 2.0，将理解、生成、编辑整合在一个端到端架构中，让创意从构想到成品，不再被中断。

1.从识图到出图，不分家

过去，设计师和创作者往往要在多款软件之间切换，才能完成图像的理解、生成和编辑。UniPic 2.0则把这些步骤整合在一次连续操作中，让创作过程更顺畅。

经「甲子光年」实测，UniPic 2.0可以精确识别图片的地点、季节和天气，为特定场景生成简洁的背景介绍和文案建议，这对旅游平台、内容电商或社交媒体营销来说十分高效。

它还能感知画面的氛围和情绪，为图片素材的情绪化筛选提供了参考。这样在广告创意选图时，不必靠个人主观判断，搜索就能更精准。

在创作上，UniPic 2.0可以根据文字生成细节丰富的图像，既包括现实题材的欧洲风格街道、雕刻精美的红木椅子，也可以生成复古技术风格绘制的飞机草图。

在要求UniPic 2.0生成“小鸟站在电线杆上望向村庄远处”的画面后，还能直接通过模型内的图片编辑功能，将其转换为吉卜力动画风格或像素游戏风格，同时保留原有细节。

它也能为整张图片添加特定滤镜，如时尚杂志、复古颗粒或冷调科技风，在保持构图不变的情况下切换风格。

在局部修改上，UniPic 2.0的精度同样可观。例如可以先生成一张“猫咪戴着飞行员墨镜坐在热气球里、背景是漂浮的棉花糖”的插画，再将猫替换成兔子：

如果想去掉照片中的部分素材，也可以向UniPic 2.0提出，去掉图片中遮挡食物的勺子：

资讯配图

UniPic 2.0将整个过程收束到同一系统中，一些原本需要数小时的工作，现在几分钟就能完成。对依赖大量视觉素材的行业来说，这意味着制作成本的下降与产出节奏的加快，更为创意留出了呼吸的空间。

2.统一架构的底层逻辑

正如前文所说，在多模态模型迅速演进的这两年，业界已经看到一体化架构的潜力。GPT-4o让图像理解、生成与编辑的结合成为热点，开源领域的FLUX-Kontext和BAGEL在融合能力和生成质量上表现突出，但超大规模参数模型在消费级硬件上运行依旧困难。

UniPic 2.0采用更贴近实际使用的路线：在架构与训练方法上压缩到2B参数，同时保留细致的生成效果与编辑能力，让一体化模型更易在日常设备中运行。

它的技术基础由三部分组成。第一部分是生图编辑模块，基于2B参数的SD3.5-Medium架构改造而来。原本只能处理文本输入的模型，被赋予了同时接受文本与参考图像的能力。

训练过程中，文本经过编码器生成指令表示，参考图像经过VAE编码为潜变量，并映射为上下文token，两者与目标图像的噪声token拼接成一个序列，再用位置编码区分不同片段。模型在结构保持不变的情况下，获得了文生图（T2I）和文本驱动图像编辑（I2I）双能力。

值得一提的是，其训练数据全部来自社区开源，包含600万高质量生图样本与500万编辑样本，两类任务按批次交替训练，分辨率覆盖1:1、4:3、3:2、16:9等常见比例，避免了模型在单一尺度上产生偏置，提升了对不同构图的泛化能力。

第二部分是统一模型能力。在预训练好的生图编辑模型基础上，引入Qwen2.5-VL-7B和连接器进行特征对齐。训练分为两个阶段：先冻结主体权重，仅在亿级图像生成数据上预训练连接器，使多模态模型与生成模块的特征空间匹配；再将连接器与预训练好的生图编辑模型共同解冻，使用高质量生图和编辑数据进行SFT联合训练，使理解、生成、编辑三类任务在一个模型中顺畅协作。

第三部分是生图编辑的后训练阶段，也是UniPic 2.0在性能提升上的关键一步。团队设计了基于Flow-GRPO的渐进式双任务强化策略，将优化过程分成两个阶段：先针对图像编辑任务强化，让模型在保留原图结构的前提下精准执行修改，并保持视觉自然；再针对文生图任务优化复杂指令的理解与生成准确度。这样的顺序避免了多任务之间的性能牵制，反而在协同中实现了正向增益。

为了让强化学习有可靠的反馈机制，昆仑万维团队构建了行业首个专门面向图像编辑的奖励模型——Skywork-EditReward。它以Qwen2.5-VL-7B为骨架，能同时接收原图、编辑结果与指令作为输入，并输出细致到像素级的质量评分。

这一奖励模型的训练过程同样依赖开源技术：先由UniPic2-SD3.5M-Kontext生成33.3万条编辑样本，再通过GPT-4.1打分，确保评分标准与人类审美高度一致。文生图部分则结合GenEval等指标评估组合性理解与语义准确性，让生成过程更加贴合复杂描述。

从评测结果来看，UniPic 2.0在小参数规模下展现了越级表现。仅2B参数的UniPic2-SD3.5M-Kontext在生图效果上超过12B参数的Flux.dev，在编辑效果上也领先12B的Flux-Kontext，并且优于19B的UniWorld-V1和14B的BAGEL等统一模型。

当模型扩展为统一架构的UniPic2-Metaquery后，生图与编辑能力进一步提升，在多项指标上刷新了开源模型的记录。

除了性能，UniPic 2.0的设计还带来几个重要优势：生成模块轻量高效，指标优于更大规模的同类模型；强化学习显著提高了复杂指令的理解和生成一致性；一体化架构可灵活拓展，只需微调轻量连接器即可适配新任务；模型和代码完全开源，方便开发者快速上手并构建自己的多模态应用。

这条路径与实践经验相吻合：真正创造价值的工具，必须进入高频、刚需的日常工作流。昆仑万维CEO方汉近日在2025世界人工智能大会（WAIC）上也给出同样判断：只有能被高频使用、嵌入日常流程的应用，才能形成稳定的商业价值与黏性。统一架构的意义正在这里落地。

对于需要高频处理视觉内容的团队，这种统一且轻量的模型，既能在日常硬件上运行，也能减少跨工具操作带来的时间消耗，并保持不同输出环节的风格一致。在多模态技术快速发展的当下，这种平衡性能与部署门槛的方案，正在成为越来越多创作者与企业关注的方向。

3.从工具走向体系

据「甲子光年」观察，在AI图像生成的演进中，行业评判标准正在发生变化。

最初，人们关注的是一张图是否好看、是否逼真；现在，更重要的是模型是否稳定，能否支持多个任务，并在复杂流程中与其他系统协同工作。这种趋势推动统一架构、任务融合的模型逐渐成为底层能力，而不仅仅是独立的工具。

在近日举行的Skywork AI技术发布周中，昆仑万维已在8月11日和12日分别发布视频生成模型SkyReels-A3和自研世界模型Matrix-Game2.0。结合最新发布的UniPic 2.0和即将要发布的AI模型，昆仑万维将连续五天发布覆盖多模态AI核心场景的前沿模型，力图构建一个完整技术体系。

在昆仑万维的开源模型和产品矩阵中，图像模型UniPic 2.0能够理解、生成与编辑，是视觉素材的基础单元；SkyReels则承担视频生成任务，支持从镜头分镜到自动合成的全流程；Mureka则将AI音乐生成与其他内容模态联动；Skywork天工超级智能体则连接不同信息源，协助内容整合与组织。这些模型和产品能力相辅相成，有望可以协作和打通，使得一个模块的改进能带动整体表现提升。

方汉曾在WAIC现场形容，Skywork能“将普通人8小时的研究工作，缩短到8分钟”，并且每一份报告、每一页PPT，都建立在可被追溯的真实数据之上。

作为一家94%收入来自海外的企业，昆仑万维也总结出中国企业面对全球竞争的核心优势。首先是成本控制能力：工程团队在推理优化上投入巨大，能通过消费级显卡等方式大幅降低部署成本。数据显示，中国在AI对话等高频场景中，其百万Token推理成本低至5-7分人民币，仅为美国同类产品的七分之一左右。

其次是产品迭代速度。昆仑万维的多款产品能保持高速的更新节奏，不仅来自工程师的执行力，更体现出其研发流程的闭环机制，能迅速响应真实场景中的问题与需求。

最后是资源整合与跨界适配的能力。中国的产业链和上下游生态十分完善，从算法优化、数据处理到不同垂直场景的适配，都能在较短时间内完成。技术也得以顺畅地进入不同业务形态，形成稳定的商业落地。

这些因素叠加，使得统一架构不仅是一种工程选择，更成为实际工作流中的骨架。对于内容生产行业而言，这种系统让制作流程的组织方式发生质变。

过去团队需要在多个工具间切换、手动调节风格与格式，如今可以在一个平台内完成各类输出。从主图到电商详情页，从短视频片段到配乐、字幕与社交传播图，创作流程被打通。设计、编辑、营销、投放等环节之间的协作也变得更紧凑，减少了搬运工式的重复劳动。

更重要的是，这种协同结构改变的不是某个环节的速度，而是整条生产节奏的组织方式。创作者的精力可以回到内容构思与质量把控，企业的交付从多轮改稿变成一次成型，版本管理与多渠道发布都能在同一流程内闭环。

方汉也在演讲中指出，推动AGI的持续创新，并让AIGC扎实落地到各类行业场景，才可能真正改写全球AI产业的格局。

当AI模型从舞台上的演示项目转为生产链中的稳定部件，统一架构的意义便不再抽象。对于广大行业来说，昆仑万维UniPic 2.0不仅是一个高性能的生成模型，更是能嵌入高频任务、与其他模态协同的核心单元。它能让每个创意都能顺畅地从脑海进入现实，也开辟了让技术真正融入生产节奏的时代。

*项目地址：

项目主页：

https://unipic-v2.github.io/

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

GitHub地址：

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

HuggingFace Gradio:

https://huggingface.co/spaces/Skywork/UniPic2-Metaquery

HuggingFace Model:

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B; https://huggingface.co/Skywork/UniPic2-Metaquery-9B

（封面及文中配图来源：昆仑万维）

END.