字节让“视频虚拟试衣”立马变现,视频换装不再“穿帮”,细节稳如泰山,实现{所见即所得}!

AI产品汇 2025-08-08 07:50

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://virtu-lab.github.io/

代码链接-https://github.com/Virtu-Lab/DreamVVT

论文链接-https://arxiv.org/pdf/2508.02807



为什么需要这个算法?--视频虚拟试穿(VVT)技术因其在电子商务广告和娱乐中的广泛应用而引起了学术界的极大兴趣。然而,大多数现有的端到端方法严重依赖于稀缺的以服装为中心的配对数据集,无法有效地利用高级视觉模型和测试时间输入的先验,这使得在不受约束的场景中准确保留细粒度的服装细节并保持时间一致性变得具有挑战性。
这个算法能做什么?--DreamVVT是字节最新提出的一种视频虚拟试穿方法。它可以为各种服装和无约束场景生成高保真度和时间连贯的虚拟试穿视频。
这个算法效果如何?-- 大量的定量和定性实验结果表明:DreamVVT在真实世界场景中保留详细的服装内容和时间稳定性方面超越了现有的方法。


资讯配图


01-DreamVVT核心优势

    DreamVVT是字节最新提出的一个基于扩散变换器(DiTs)的精心设计的两阶段视频虚拟试穿框架,它能够利用各种不成对的以人为中心的数据来增强现实世界场景中的适应性。

    为了进一步利用预训练模型和测试时间输入的先验知识,在第一阶段,作者从输入视频中采样代表性帧,并利用与视觉语言模型(VLM)集成的多帧试穿模型来合成高保真度和语义一致的关键帧试穿图像。这些图像可作为后续视频生成的补充外观指南。

    在第二阶段,从输入内容中提取骨架图以及细粒度的运动和外观描述,然后将这些与关键帧试穿图像一起输入到用LoRA适配器增强的预训练视频生成模型中。这确保了看不见区域的长期时间一致性,并实现了高度合理的动态运动。

   

02-DreamVVT变现场景

02.01-复杂运动场景试穿
    如上面的视频所示,DreamVVT允许对整套服装进行虚拟试穿,包括上衣、下装、裙子、鞋子、袜子等。如果用户只上传上衣,模型可以自动生成并匹配合适的下装和鞋子,以完成服装。此功能在以前的方法中不可用。
    DreamVVT能够处理复杂的人体运动,包括走秀和360度旋转,在服装细节保存方面具有高保真度和强大的时间一致性。
02.02-挑战场景下试穿
    如上面的视频所示,DreamVVT能够在以复杂静态或动态环境中的主题为特色的视频中进行虚拟试穿。
02.03-相机运动场景试穿
    如上面的视频所示,DreamVVT可以保持时间一致性和高保真服装细节,即使输入视频具有挑战性的相机运动和突出的场景过渡。
02.04-服装交互试穿
    如上面的视频所示,DreamVVT可以在涉及服装交互的场景中生成逼真的物理动态,例如,将手插入口袋或与柔软的服装材料交互。
02.05-卡通人物试穿
    如上面的视频所示,DreamVVT能够为卡通人物配备真实世界的服装,即使在涉及不受限制的主体姿势或相机移动和动态场景的高要求场景中也是如此。

03-DreamVVT性能评估

03.01-主观效果评估
资讯配图
资讯配图
    上图展示了该方法与多个SOTA的虚拟试穿方法(Gament、CatV2TON、Magic-Tryon、4o+VACE)在相同的输入视频下的虚拟试穿效果。通过观察与分析,我们可以发现:与其它基线方法相比,该方法试穿效果更逼真、一致性更好一些。
03.02-客观指标评估
资讯配图
    上表展示了该方法与多个SOTA的虚拟试穿方法在ViViD数据集上面的评估结果。通过观察与分析,我们可以发现:该方法在多项指标上获得了最佳的得分,优于其它方法。

关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号