点击下方卡片,关注“大模型之心Tech”公众号
>>点击进入→大模型技术交流群
写在前面
一张图片 + 一段音频 = 电影级数字人视频。阿里通义万相带来的Wan2.2-S2V模型正在重新定义视频生成技术的边界。
在AI视频生成领域,音频驱动技术一直是研究热点。当前主流的音频驱动角色动画模型虽在语音、歌唱等单一场景中表现亮眼,但面对影视制作中复杂的角色互动、真实肢体动作与动态镜头需求时,往往显得力不从心。
8月26日,阿里巴巴再次以开源方式震撼AI界,正式发布了多模态视频生成模型通义万相Wan2.2-S2V。这款仅需一张静态图片和一段音频就能生成电影级数字人视频的模型,迅速在全球AI社区引发热潮。
Wan2.2-S2V的最大突破在于其单次生成时长可达分钟级的能力,这在此前的视频生成领域极为罕见。长视频生成的稳定性一直是业界的难题,阿里通过层次化帧压缩技术解决了这一问题。
该技术大幅降低了历史帧的Token数量,将历史参考帧的长度从数帧拓展到73帧,从而实现了稳定的长视频生成效果。这意味着生成长达数分钟的视频也能保持高度一致性和稳定性,不再局限于几秒钟的片段式输出。
阿里此次依然选择了开源路线,模型已在Hugging Face、魔搭社区和GitHub上架,供开发者自由下载使用。同时,通义万相官网也提供了直接体验入口。
自今年2月以来,通义万相已连续开源多款视频生成模型,包括文生视频、图生视频、首尾帧生视频等,其在开源社区和三方平台的下载量已超2000万次。Wan2.2-S2V的开源无疑将进一步巩固阿里在开源AI社区的影响力。
下面一起来看看Wan-S2V的技术报告细节吧。
行业痛点:现有音频驱动模型难以适配影视复杂场景
近年来,得益于扩散模型的快速发展,音频驱动人体视频生成技术取得显著进步。从基于UNet的文本到图像模型,再到最新的基于DiT的文本到视频模型,视觉生成质量不断提升,基于DiT的音频驱动视频基础模型也逐渐成为研究焦点。
然而,受限于前期研究方向,当前音频驱动模型大多局限于单场景人体视频生成,甚至仅能实现单角色视频驱动。在影视制作、多人互动等复杂场景中,一系列关键问题亟待解决:如何让音频在控制角色动作的同时,确保其与整体场景的运动保持一致协调?如何通过音频与提示词共同管理人物间的互动?这些问题成为制约音频驱动技术向影视级应用迈进的关键障碍。
影视级音频驱动视频生成,需要同时发挥文本与音频各自独特且互补的能力。从实际用户需求来看,文本更适合定义视频的整体动态,包括影视化镜头运动、完整的角色轨迹以及实体间的互动;而音频则在控制角色表情、局部动作(如精准手势、头部朝向)等细节方面更具优势。正是基于这一认知,阿里团队着手研发Wan-S2V模型。
核心突破:多维度创新构建Wan-S2V技术体系
(一)数据处理:打造高质量、多样化训练数据集
高质量的数据是模型性能的基础。为支撑复杂影视场景下的模型训练,阿里团队采用“自动化筛选+人工精选”的双轨策略构建数据集。

在自动化筛选环节,团队从Li等人(2024)、Wang等人(2024)等开源视频数据集中收集视频,先通过视频字幕中是否包含人类相关描述进行初步粗筛。但这些数据集的字幕往往较为粗糙,无法捕捉角色细腻的动态行为,如复杂手势、互动或特定场景下的动作。为此,团队开发了专门针对人体运动模式的字幕生成流程,弥补了这一缺陷。
人工精选环节则从公开可获取资源中手动挑选包含人类有意为之的复杂活动(如说话、唱歌、跳舞)的视频。通过这两种方式,初步构建了包含数百万以人为中心的视频样本库。
随后,团队借助VitPose(Xu等人,2022)跟踪每个角色的2D姿态,并将其转换为DWPose(Yang等人,2023)。这些姿态信息不仅作为多模态控制信号,实现与人体动作的精准时间对齐,还用于数据集的精细化筛选。具体而言,筛选掉角色在时间或空间维度上占比极小的视频,同时仅保留序列中始终包含清晰可见人脸的视频,确保模型能从音频信号中学习到音频驱动的面部表情。
此外,团队还利用预训练视频质量评估模型,从运动幅度、美学吸引力和视觉清晰度等维度对视频进行评估筛选,以保障数据质量。针对音视频对齐难题,通过Light-ASD(Liao等人,2023)检测并排除音频与活跃说话者不同步、场景中无活跃说话者的视频。
为全面评估视频质量,团队引入五大指标:采用Dover指标(Wu等人,2023)量化视频清晰度,衡量视觉内容的感知锐度;通过UniMatch框架(Xu等人,2023)预测光流并计算运动分数,评估时间连贯性,筛选出主体或背景运动过度影响视觉质量的视频;对视频帧中的人脸和手部应用拉普拉斯算子,检测并排除面部特征或手部区域模糊的视频;融入改进的美学预测器(Schuhmann,2022),依据人类审美偏好评估视觉吸引力;利用基于OCR的检测器,识别并排除字幕遮挡人脸或手部的视频案例。
在视频字幕生成方面,团队采用QwenVL2.5-72B(Bai等人,2025)为视频生成详细字幕,要求模型详细描述镜头角度(如正面、俯拍、低角度、全景、中景、特写)、人物外貌特征(如服装、配饰)与动作(拆解为主体的具体动作)、背景环境主要特征(如建筑风格、配色方案、绿植等),同时避免主观评价和情感解读,确保字幕能有效辅助生成模型对齐输入提示。
(二)模型架构:融合多模态信息,实现精准协同控制
Wan-S2V模型的输入包括单张参考图像、输入音频以及描述视频内容的提示词,最终生成与音频同步且保留参考图像内容的视频。模型以多帧噪声 latent 输入为起点,在每个时间步对其进行去噪,得到连续的视频帧。

在训练过程中,首先将RGB目标帧 (X \in \mathbb{R}^{F ×H ×W ×3}) 通过3D VAE编码为 latent 表示 (x_{0} \in \mathbb{R}^{f ×h ×w ×c}),并分配一个连续的时间步 (t \in[0,1])。根据Lipman等人(2023)提出的流匹配方法,向 (x_{0}) 中添加噪声(\epsilon),得到带噪声的 latent (x_{t}),计算公式为 (x_{t}=t\epsilon +(1-t)x_{0})。模型的目标是输入带噪声的表示 (x_{t}) 后,预测速度(\frac{d x}{d t}=\epsilon-x_{0})。在推理阶段,模型在参考帧、运动帧、音频输入和提示词的条件下,将带噪声的输入 (x_{t}) 恢复为 (x_{0})。
参考图像、目标帧和运动帧(遵循Tian等人,2024)均输入3D VAE,进行空间和时间上的下采样,得到帧的 latent 表示。所有 latent 帧经过分块和平坦化处理后,拼接成视觉 token 序列。运动帧为可选输入,主要提供历史信息条件,保证生成片段的连续性。为生成长期连贯的视频帧,需要获取更多历史信息,但直接对运动 latent token 进行平坦化会增加计算量。因此,团队借鉴Zhang & Agrawala(2025)提出的Frame Pack模块,对运动 latent 进一步压缩,对较早的帧采用更高的压缩率,有效降低计算负荷。

对于音频处理,首先利用Wav2Vec(Schneider等人,2019)对原始音频波形进行编码。为全面捕捉音频特征,团队采用Tian等人(2024)提出的加权平均层,通过可学习权重融合不同层的特征,将Wav2Vec提取的浅层节奏和情感线索与深层词汇内容特征有效整合,提升与歌唱、富有表现力的语音等复杂音频信号的同步性。随后,利用多个因果1D卷积模块在时间维度上对得到的逐帧音频特征进行压缩,生成与视频 latent 帧时间对齐的第i个 latent 帧的音频特征 (a_{i} \in \mathbb{R}^{f ×t ×c})(其中t表示每个 latent 帧的音频 token 数量)。
latent 音频特征被输入每个Audio Block,在该模块中,带噪声的 latent token (x_{t} \in \mathbb{R}^{(f' ×h ×w) ×c}) 沿时间维度被划分为多个片段 (\sum_{i}^{f'} x_{t i} \in \mathbb{R}^{(h ×w) ×c})。为降低计算开销,模型计算 (a_{i}) 与 (x_{t i}) 之间的注意力,而非在视觉 token 和音频 token 之间进行完整的3D注意力计算,确保音频特征与视觉 token 自然同步。
(三)训练策略:高效并行训练,保障模型性能与稳定性
为实现大规模全参数模型训练,Wan-S2V采用融合FSDP(Zhao等人,2023)与Context Parallel的混合并行训练方案。同时,为适配不同分辨率需求,支持变长视频数据训练。模型基于预训练的Wan模型构建,设计三阶段训练流程:音频编码器训练、语音视频训练、影视+语音视频训练,最后进行高质量SFT(监督微调)阶段训练。
在并行策略方面,首先利用FSDP在单个节点的8张GPU卡上对模型参数进行分片,实现Wan-S2V-14B模型的训练,每张GPU占用80GB内存。随后,为实现并行计算,采用融合RingAttention和Ulysses(类似Fang & Zhao,2024)的Context Parallel方案,在单个节点的8张GPU上执行,实现近线性加速,将单次训练迭代时间从约100秒大幅缩短至约12秒。这一高效的并行架构支持训练超过16B参数的模型(包括音频编码器和交叉注意力组件),并能在8张GPU上实现高达48帧、1024×768分辨率(高×宽)的高分辨率视频训练。
针对不同输出分辨率需求并优化训练过程,团队采用变长分辨率训练方法。该方法以分块操作后确定的token数量作为关键指标,设定最大允许token限制M。对于token数量超过M的视频,通过调整分辨率或裁剪操作,将token数量降至M或以下;对于token数量已低于M的视频,则直接用于模型训练,无需任何修改。
实验验证:多项指标领先,展现卓越性能
为验证Wan-S2V模型的性能,阿里团队依据第三节详述的数据构建流程,从OpenHumanViD(Li等人,2024)数据集筛选数据,并与自建的内部说话人数据集整合,形成完整的训练集。基于Wan-14B构建音频驱动人体视频生成模型,命名为Wan-S2V-14B。
(一)定性评估:运动动态与身份一致性表现突出
在与现有SOTA音频驱动视频生成模型的对比实验中,团队选取两种基于DiT的模型——Lin等人(2025)提出的Omnihuman和Chen等人(2025)提出的Hunyuan-Avatar进行比较。结果显示,Wan-S2V-14B展现出更优异的性能。

从生成的人体视频来看,Hunyuan-Avatar在角色大幅度运动时,容易出现面部失真和身份不一致的问题;而Omnihuman生成的结果运动幅度极小,大多局限于参考图像的静态姿态。相比之下,Wan-S2V-14B在运动动态和身份一致性两方面均表现出色,能生成自然且富有表现力的角色动作,同时有效保持角色身份的稳定性。

在长视频生成的一致性测试中,与以往专注于单人说话场景、生成短而孤立视频片段的方法不同,Wan-S2V-14B能够满足影视级视频生成对多个生成片段长期一致性的要求,包括运动、镜头移动和身份保持。通过FramePack模块编码更多运动帧,模型能够捕捉长期时间依赖关系,从而更好地保留连贯的时间信息。例如,在生成火车沿固定方向行驶的场景时,Omnihuman无法在多个片段中保持运动趋势,而Wan-S2V-14B则能成功维持火车运动方向和速度的一致性。

在连续视频片段的物体身份保持测试中,当基于已生成片段继续生成新的视频片段时,Wan-S2V-14B将先前片段作为运动帧,借助FramePack模块编码更多运动帧,不仅能保持整体运动趋势,还能确保片段间物体身份的一致性。例如,生成的角色拿起纸张的画面中,纸张的视觉特征与前一片段中的纸张高度匹配;而在未使用FramePack模块的情况下,同一物体的外观可能会发生显著偏移。
(二)定量评估:多项关键指标位居榜首
团队在Meng等人(2024)提出的EMTD数据集(主要包含单人说话视频)上进行定量对比实验,选取多种开源音频动画方法作为对比对象,包括Meng等人(2024)的EchoMimicV2(依赖预提取的姿态序列实现图像动画)、Zhang等人(2024)的MimicMotion(同样基于预提取姿态序列)、Tian等人(2025a)的EMO2(采用两阶段流程:从音频生成部分手部运动,再结合音频和生成的运动实现角色动画),以及近期基于音频驱动的DiT方法,如Wang等人(2025)的FantasyTalking和Hunyuan-Avatar。
实验采用多种指标对模型性能进行全面评估:利用Fréchet Inception Distance(FID,Heusel等人,2017)、SSIM(Wang等人,2004)和PSNR(Hore & Ziou,2010)评估生成帧的质量;通过Fréchet Video Distance(FVD,Unterthiner等人,2019)衡量生成视频的整体连贯性;计算参考图像与生成视频帧面部特征的余弦相似度(CSIM),评估身份一致性;采用Chung & Zisserman(2017)提出的Sync-C指标,衡量唇部运动与音频信号的同步质量;引入Hand Keypoint Confidence(HKC)评估生成帧中手部表示的质量,Hand Keypoint Variance(HKV)作为手部运动丰富度的指标;同时,采用Tian等人(2025b)提出的EFID指标,定量评估合成视频与真实数据集在表情上的差异。

实验结果(如表1所示)显示,Wan-S2V-14B在多个关键指标上均超越对比模型。在帧质量方面,模型的FID、SSIM、PSNR指标表现更优,表明生成帧的视觉质量更高;在视频质量评估中,更低的FVD分数证明生成视频的整体连贯性更强;在细节生成上,更高的HKC分数意味着模型能生成更清晰、准确的手部形态,而更高的HKV值则表明手部运动更生动、多样。
需要说明的是,EMO2在HKC和HKV指标上取得最高值,这是因为EMO2基于预生成的运动序列生成帧,能够更好地控制手部运动的多样性,且MANO模型的应用使其在HKC指标上比其他方法更具优势。此外,Hunyuan-Avatar生成的角色表情较为单一(类似“扑克脸”),导致其EFID指标高于其他方法。
总结与展望:开启影视级音频驱动视频新篇章
Wan-S2V模型的提出,在音频驱动人体视频生成领域取得重要突破,尤其针对影视场景的复杂性需求,提供了有效的解决方案。模型通过文本控制整体运动、音频控制细粒度角色表情的协同方式,显著提升了视频生成的表现力和一致性。从高质量数据集构建、高效模型训练到优化推理策略,阿里团队的全方位技术方案,让高质量音频驱动视频合成更具实用性和可操作性。
不过,该技术仍面临一些挑战,如影视场景中复杂的多人细腻互动、仅通过音频实现精准镜头控制等难题,仍有待进一步研究突破。作为Vida研究系列的首款模型,阿里团队表示,未来将继续深入探索高级角色控制、动态舞蹈生成等方向,不断推动以人为中心的视频合成技术发展,为影视制作、虚拟内容创作等领域带来更多创新可能。
随着AI技术的持续演进,音频驱动视频生成技术有望在更多场景落地应用,而Wan-S2V模型的研究成果,无疑为这一领域的发展注入了强劲动力,也为行业未来的技术探索指明了重要方向。
参考
技术报告标题:Wan-S2V: Audio-Driven Cinematic Video Generation
技术报告链接:https://arxiv.org/pdf/2508.18621
项目主页链接:https://humanaigc.github.io/wan-s2v-webpage/
大模型之心Tech知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!