理解、生成、编辑一次搞定:Skywork UniPic 2.0的统一多模态解法|甲子光年

甲子光年 2025-08-13 15:31
资讯配图
资讯配图

让创作不再中断。


作者|田思奇

编辑|栗子


周四下午,电商团队临时接到任务:促销海报临时加量,文案再改两版,主视觉再出三套。设计师匆忙地在三种工具间来回折返:先识图找素材,再生图出草稿,最后到P图软件修改局部。每一次导入导出,都在消耗时间和风格统一度。


许多依赖视觉内容的行业,都可能面临类似的阻碍:创意没有通过技术放大,反而被切碎在流程里。即便生成式AI已经上了线,团队仍在做搬运工作,像是把零件交给不同软件排队加工。


目前行业需要的,是一次接入就能贯通理解、生成、编辑的统一架构,减少沟通成本与返工风险,把人从工具切换里解放出来。


在开源社区,目前已有FLUX-Kontext、BAGEL等探索,证明了方向可行。但它们体量大、推理慢,对硬件要求高,相对更适合实验室,而非日常生产。


对广告、电商、媒体、教育、游戏等行业来说,如果能以较低的技术门槛运行统一且高效的多模态图像框架,不仅能加快设计,还能改进跨部门协作、素材复用和品牌管理。


作为中国头部AI企业,昆仑万维在8月11日至8月15日举行的Skywork AI技术发布周中,展示了其多模态系统的模型能力。8月13日,昆仑万维正式发布Skywork UniPic 2.0,将理解、生成、编辑整合在一个端到端架构中,让创意从构想到成品,不再被中断。




1.从识图到出图,不分家

资讯配图


过去,设计师和创作者往往要在多款软件之间切换,才能完成图像的理解、生成和编辑。UniPic 2.0则把这些步骤整合在一次连续操作中,让创作过程更顺畅。


经「甲子光年」实测,UniPic 2.0可以精确识别图片的地点、季节和天气,为特定场景生成简洁的背景介绍和文案建议,这对旅游平台、内容电商或社交媒体营销来说十分高效。


资讯配图


它还能感知画面的氛围和情绪,为图片素材的情绪化筛选提供了参考。这样在广告创意选图时,不必靠个人主观判断,搜索就能更精准。


资讯配图


在创作上,UniPic 2.0可以根据文字生成细节丰富的图像,既包括现实题材的欧洲风格街道、雕刻精美的红木椅子,也可以生成复古技术风格绘制的飞机草图。


资讯配图


在要求UniPic 2.0生成“小鸟站在电线杆上望向村庄远处”的画面后,还能直接通过模型内的图片编辑功能,将其转换为吉卜力动画风格或像素游戏风格,同时保留原有细节。


资讯配图


它也能为整张图片添加特定滤镜,如时尚杂志、复古颗粒或冷调科技风,在保持构图不变的情况下切换风格。


资讯配图


在局部修改上,UniPic 2.0的精度同样可观。例如可以先生成一张“猫咪戴着飞行员墨镜坐在热气球里、背景是漂浮的棉花糖”的插画,再将猫替换成兔子:


资讯配图


如果想去掉照片中的部分素材,也可以向UniPic 2.0提出,去掉图片中遮挡食物的勺子:


资讯配图


UniPic 2.0将整个过程收束到同一系统中,一些原本需要数小时的工作,现在几分钟就能完成。对依赖大量视觉素材的行业来说,这意味着制作成本的下降与产出节奏的加快,更为创意留出了呼吸的空间。




2.统一架构的底层逻辑

资讯配图


正如前文所说,在多模态模型迅速演进的这两年,业界已经看到一体化架构的潜力。GPT-4o让图像理解、生成与编辑的结合成为热点,开源领域的FLUX-Kontext和BAGEL在融合能力和生成质量上表现突出,但超大规模参数模型在消费级硬件上运行依旧困难。


UniPic 2.0采用更贴近实际使用的路线:在架构与训练方法上压缩到2B参数,同时保留细致的生成效果与编辑能力,让一体化模型更易在日常设备中运行。


资讯配图


它的技术基础由三部分组成。第一部分是生图编辑模块,基于2B参数的SD3.5-Medium架构改造而来。原本只能处理文本输入的模型,被赋予了同时接受文本与参考图像的能力。


训练过程中,文本经过编码器生成指令表示,参考图像经过VAE编码为潜变量,并映射为上下文token,两者与目标图像的噪声token拼接成一个序列,再用位置编码区分不同片段。模型在结构保持不变的情况下,获得了文生图(T2I)和文本驱动图像编辑(I2I)双能力。


值得一提的是,其训练数据全部来自社区开源,包含600万高质量生图样本与500万编辑样本,两类任务按批次交替训练,分辨率覆盖1:1、4:3、3:2、16:9等常见比例,避免了模型在单一尺度上产生偏置,提升了对不同构图的泛化能力。


第二部分是统一模型能力。在预训练好的生图编辑模型基础上,引入Qwen2.5-VL-7B和连接器进行特征对齐。训练分为两个阶段:先冻结主体权重,仅在亿级图像生成数据上预训练连接器,使多模态模型与生成模块的特征空间匹配;再将连接器与预训练好的生图编辑模型共同解冻,使用高质量生图和编辑数据进行SFT联合训练,使理解、生成、编辑三类任务在一个模型中顺畅协作。


第三部分是生图编辑的后训练阶段,也是UniPic 2.0在性能提升上的关键一步。团队设计了基于Flow-GRPO的渐进式双任务强化策略,将优化过程分成两个阶段:先针对图像编辑任务强化,让模型在保留原图结构的前提下精准执行修改,并保持视觉自然;再针对文生图任务优化复杂指令的理解与生成准确度。这样的顺序避免了多任务之间的性能牵制,反而在协同中实现了正向增益。


为了让强化学习有可靠的反馈机制,昆仑万维团队构建了行业首个专门面向图像编辑的奖励模型——Skywork-EditReward。它以Qwen2.5-VL-7B为骨架,能同时接收原图、编辑结果与指令作为输入,并输出细致到像素级的质量评分。


这一奖励模型的训练过程同样依赖开源技术:先由UniPic2-SD3.5M-Kontext生成33.3万条编辑样本,再通过GPT-4.1打分,确保评分标准与人类审美高度一致。文生图部分则结合GenEval等指标评估组合性理解与语义准确性,让生成过程更加贴合复杂描述。


从评测结果来看,UniPic 2.0在小参数规模下展现了越级表现。仅2B参数的UniPic2-SD3.5M-Kontext在生图效果上超过12B参数的Flux.dev,在编辑效果上也领先12B的Flux-Kontext,并且优于19B的UniWorld-V1和14B的BAGEL等统一模型。


当模型扩展为统一架构的UniPic2-Metaquery后,生图与编辑能力进一步提升,在多项指标上刷新了开源模型的记录。


资讯配图


除了性能,UniPic 2.0的设计还带来几个重要优势:生成模块轻量高效,指标优于更大规模的同类模型;强化学习显著提高了复杂指令的理解和生成一致性;一体化架构可灵活拓展,只需微调轻量连接器即可适配新任务;模型和代码完全开源,方便开发者快速上手并构建自己的多模态应用。


这条路径与实践经验相吻合:真正创造价值的工具,必须进入高频、刚需的日常工作流。昆仑万维CEO方汉近日在2025世界人工智能大会(WAIC)上也给出同样判断:只有能被高频使用、嵌入日常流程的应用,才能形成稳定的商业价值与黏性。统一架构的意义正在这里落地。


对于需要高频处理视觉内容的团队,这种统一且轻量的模型,既能在日常硬件上运行,也能减少跨工具操作带来的时间消耗,并保持不同输出环节的风格一致。在多模态技术快速发展的当下,这种平衡性能与部署门槛的方案,正在成为越来越多创作者与企业关注的方向。




3.从工具走向体系

资讯配图


据「甲子光年」观察,在AI图像生成的演进中,行业评判标准正在发生变化。


最初,人们关注的是一张图是否好看、是否逼真;现在,更重要的是模型是否稳定,能否支持多个任务,并在复杂流程中与其他系统协同工作。这种趋势推动统一架构、任务融合的模型逐渐成为底层能力,而不仅仅是独立的工具。


在近日举行的Skywork AI技术发布周中,昆仑万维已在8月11日和12日分别发布视频生成模型SkyReels-A3和自研世界模型Matrix-Game2.0。结合最新发布的UniPic 2.0和即将要发布的AI模型,昆仑万维将连续五天发布覆盖多模态AI核心场景的前沿模型,力图构建一个完整技术体系。


在昆仑万维的开源模型和产品矩阵中,图像模型UniPic 2.0能够理解、生成与编辑,是视觉素材的基础单元;SkyReels则承担视频生成任务,支持从镜头分镜到自动合成的全流程;Mureka则将AI音乐生成与其他内容模态联动;Skywork天工超级智能体则连接不同信息源,协助内容整合与组织。这些模型和产品能力相辅相成,有望可以协作和打通,使得一个模块的改进能带动整体表现提升。


方汉曾在WAIC现场形容,Skywork能“将普通人8小时的研究工作,缩短到8分钟”,并且每一份报告、每一页PPT,都建立在可被追溯的真实数据之上。


作为一家94%收入来自海外的企业,昆仑万维也总结出中国企业面对全球竞争的核心优势。首先是成本控制能力:工程团队在推理优化上投入巨大,能通过消费级显卡等方式大幅降低部署成本。数据显示,中国在AI对话等高频场景中,其百万Token推理成本低至5-7分人民币,仅为美国同类产品的七分之一左右。


其次是产品迭代速度。昆仑万维的多款产品能保持高速的更新节奏,不仅来自工程师的执行力,更体现出其研发流程的闭环机制,能迅速响应真实场景中的问题与需求。


最后是资源整合与跨界适配的能力。中国的产业链和上下游生态十分完善,从算法优化、数据处理到不同垂直场景的适配,都能在较短时间内完成。技术也得以顺畅地进入不同业务形态,形成稳定的商业落地。


这些因素叠加,使得统一架构不仅是一种工程选择,更成为实际工作流中的骨架。对于内容生产行业而言,这种系统让制作流程的组织方式发生质变。


过去团队需要在多个工具间切换、手动调节风格与格式,如今可以在一个平台内完成各类输出。从主图到电商详情页,从短视频片段到配乐、字幕与社交传播图,创作流程被打通。设计、编辑、营销、投放等环节之间的协作也变得更紧凑,减少了搬运工式的重复劳动。


更重要的是,这种协同结构改变的不是某个环节的速度,而是整条生产节奏的组织方式。创作者的精力可以回到内容构思与质量把控,企业的交付从多轮改稿变成一次成型,版本管理与多渠道发布都能在同一流程内闭环。


方汉也在演讲中指出,推动AGI的持续创新,并让AIGC扎实落地到各类行业场景,才可能真正改写全球AI产业的格局。


当AI模型从舞台上的演示项目转为生产链中的稳定部件,统一架构的意义便不再抽象。对于广大行业来说,昆仑万维UniPic 2.0不仅是一个高性能的生成模型,更是能嵌入高频任务、与其他模态协同的核心单元。它能让每个创意都能顺畅地从脑海进入现实,也开辟了让技术真正融入生产节奏的时代。


*项目地址:

项目主页:

https://unipic-v2.github.io/

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

GitHub地址:

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

HuggingFace Gradio:

https://huggingface.co/spaces/Skywork/UniPic2-Metaquery


HuggingFace Model: 

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2Bhttps://huggingface.co/Skywork/UniPic2-Metaquery-9B


(封面及文中配图来源:昆仑万维)


资讯配图



END.




资讯配图
资讯配图


资讯配图资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC IP
more
ICCV25:轻量化超分的卷积形注意力ConvAttn
英飞凌EiceDRIVER™系列驱动器IC和评估板免费申领!
理解、生成、编辑一次搞定:Skywork UniPic 2.0的统一多模态解法|甲子光年
荣耀Magic V Flip2即将上市,新机测试10000mAh电池
【前沿】8.21发 荣耀MagicVFlip2新款小折叠官宣 4个配色外观给几分?
ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
宣布关厂半年后,Microchip开始缓过来了
AI芯片初创公司NeoLogic完成1000万美元融资,将推出首款服务器CPU| 区势·AI
长城、均胜、SABIC、康宁、戈尔、福耀、硅宝演讲 CIAIE 2025邀您共话汽车内外饰产业进阶之路
新品 | 英飞凌CoolSiC™ 第五代1200 V碳化硅肖特基二极管
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号