ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

机器之心 2025-08-12 11:07
资讯配图


本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。


资讯配图



近年来,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。特别是一张静态人脸驱动任意表情、姿态乃至光照的梦想,正在走向大众工具箱,并在三大场景展现巨大潜力:





人脸视频生成的核心难题在于,如何在根据参考图像和外部动作序列,严谨地保持源参考人脸身份特征不被损伤的同时,还要维持目标人脸动作的一致性。现有方法在追求真实动态表现时,通常会遭遇以下三大挑战:





小红书提出 DynamicFace,让视频人脸交换迈入「电影级」工业流水线!


方法介绍


本研究提出了一种创新性的人脸置换方法 DynamicFace,针对图像及视频领域的人脸融合任务实现了高质量与高度一致性的置换效果。


与传统人脸置换方法相比,DynamicFace 独创性地将扩散模型(Diffusion Model)与可组合的 3D 人脸先验进行深度融合,针对人脸运动与身份信息进行了精细化解耦,以生成更一致的人脸图像和视频。


资讯配图


可组合三维面部先验的显式条件解耦


针对现有方法在身份与运动表征中普遍存在的耦合冗余问题,DynamicFace 提出将人脸条件显式分解为身份、姿态、表情、光照及背景五个独立的表征,并基于 3DMM 重建模型获取对应参数。


具体而言,利用源图像提取身份形状参数 α,目标视频逐帧提取姿态 β 与表情 θ,随后渲染生成形状–姿态法线图,减少目标人脸身份泄露,最大程度保留源身份;表情信息从二维关键点中提取,建模更精准的表情信息,仅保留眉毛、眼球及口唇区域的运动先验,避免引入目标身份特征;光照条件由 UV 纹理图经模糊处理得到,仅保留低频光照分量;背景条件采用遮挡感知掩码与随机位移策略,实现训练–推理阶段的目标脸型对齐。


四条条件并行输入 Mixture-of-Guiders,每组由 3×3 卷积与零初始化卷积末端构成轻量级条件注入模块,在注入网络前经过 FusionNet 融合四个条件特征后注入到扩散模型中,可在保持 Stable Diffusion 预训练先验的同时实现精准控制。


身份–细节双流注入机制


为实现高保真身份保持,DynamicFace 设计了双流并行注入架构。高层身份流由 Face Former 完成:首先利用 ArcFace 提取 ID Embedding,再通过可学习 Query Token 与 U-Net 各层 Cross-Attention 交互,确保全局身份一致性;细节纹理流由 ReferenceNet 实现,该网络为 U-Net 的可训练副本,将 512×512 源图潜变量经 Spatial-Attention 注入主网络,实现细粒度的纹理迁移。


即插即用时序一致性模块


针对时序一致性问题,DynamicFace 会在训练中插入时序注意力层来优化帧间稳定性,但时序层在处理长视频生成时会出现帧间跳动的现象。为此,我们提出了 FusionTVO,将视频序列划分为若干段,并为每段设置融合权重,在相邻段的重叠区域实行加权融合;并在潜变量空间引入总变差(Total Variation)约束,抑制帧与帧之间的不必要波动;对于人脸之外的背景区域,在每一步去噪迭代过程中采用目标图像中的背景潜变量空间进行替换,维持了场景的高保真度。


生成结果展示


资讯配图
资讯配图
资讯配图


与 SOTA 方法的定性对比实验


资讯配图
资讯配图
资讯配图
资讯配图


DynamicFace 可以很好地保持身份(例如,形状和面部纹理信息)和动作(包括表情和姿势等),并且生成结果维持了更好的背景一致性。


具体来说,基于 GAN 的方法往往会生成较为模糊、视觉上并不真实且身份一致性较差的结果,但可以维持不错的运动一致性;其他基于扩散模型的方法能生成分辨率更高且更真实的结果,但运动一致性保持较差(如表情不一致,眼神朝向不同等)。


DynamicFace 通过精细化解耦的条件注入可以保证更优的表情一致、眼神一致和姿势一致性。


与 SOTA 方法的定量对比实验


资讯配图


为全面评估 DynamicFace 的性能,研究团队在 FaceForensics++(FF++)和 FFHQ 数据集上进行系统性的定量实验,并与当前最具代表性的 6 种换脸方法进行对比,包括 Deepfakes、FaceShifter、MegaFS、SimSwap、DiffSwap 以及 Face Adapter。


实验遵循先前论文的参数设置:从每个测试视频中随机抽取 10 帧作为评估样本,并另取连续 60 帧用于视频级指标计算。所有方法均使用官方开源权重或公开推理脚本,在输入分辨率(512×512)下复现结果。定量结果如表中所示:DynamicFace 同时在身份一致性(ID Retrieval)和运动一致性(Mouth&Eye Consistency)达到了最优的结果。


整体而言,实验结果充分证明了 DynamicFace 在身份保真与运动还原方面的综合优势,验证了其在高质量人脸可控生成中的卓越性能。


更多应用样例


资讯配图
资讯配图


我们也展示了一些其他的应用示例,DynamicFace 可以对身份保持和人体驱动等生成结果进行后处理,显著提升生成结果的人脸 ID 一致性和表情控制,更多效果展示可以在项目主页中进行查看。期望这种精细化解耦条件注入的方法能为可控生成的后续工作提供新思路。


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI IC
more
荣耀放大招了?荣耀Magic 8系列信息汇总!
【前沿】8.21发 荣耀MagicVFlip2新款小折叠官宣 4个配色外观给几分?
颠覆互联网的下一波浪潮:Agentic Web来了!
ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
荣耀Magic8 Ultra发力!死磕拍照
长城、均胜、SABIC、康宁、戈尔、福耀、硅宝演讲 CIAIE 2025邀您共话汽车内外饰产业进阶之路
ReaGAN火了!让每个节点变智能体,这个推理框架重新定义Agentic Network
加速落地主驱逆变器,三安光电1200V 13mΩ SiC MOSFET完成验证
ICCV'25开源 | 浙大沈春华团队提出POMATO:动态3D重建新范式!点云匹配+时序运动,三维追踪精度提升!
AGICamp 第 007 周 AI 应用榜:长视频一键转化小红书爆款,晚间副业最佳效能工具?
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号