阿里开源14B电影级视频模型!实测来了:免费可玩,单次生成时长可达分钟级

量子位 2025-08-27 10:23
一水 发自 凹非寺
量子位 | 公众号 QbitAI

AI视频生成正在迎来“通义时刻”!

就在昨夜,阿里突然发布了一款由音频驱动的14B视频模型Wan2.2-S2V——

仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频

玩法+效果be like:

来自𝕏@AIMIRAI46487

而且最重要的是,新模型发布即开源,现在人人都能在通义万相官网免费体验。

资讯配图

根据官方介绍,Wan2.2-S2V最大亮点在于:

尤其在生成各种电影情节方面,Wan2.2-S2V已经取得了相当进步,整体自然度和人物动作流畅性有了大幅增强。

网友们更是集体开启了好评模式:

资讯配图

既然新模型如此备受关注,那我们不得赶紧上手体验一番(doge)。

让马斯克还原生活大爆炸经典台词

打开通义万相官网,操作界面长下面这样(目前每日登录官方会赠送50积分可用于体验)

资讯配图

注意,音频部分既可以从本地上传,也支持从声音库中选择合适的配音演员,顶部可直接输入指定台词。

资讯配图

这里我们请出了老演员马斯克,然后配上了他客串《生活大爆炸》的台词:

I’m washing dishes. Well, I was on the turkey line, but I got demoted for being too generous with the gravy.

小试牛刀后,Wan2.2-S2V很快就生成了以下视频:

有一说一,其对口型能力还是相当不错的,唇形和台词基本都能对上。

而且这里我们只是简单给大家打个样,欢迎大家自行探索更多玩法(doge)。

不过在此之前,咱们继续康康其他网友的实测分享吧~

一位日本小哥首先出场,直接用Wan2.2-S2V生成了动漫人物朗诵诗的情节,是不是很有动画内味儿了。

或者用来整活儿发朋友圈,制作人物贴画唱歌视频:

而且类似大段rap、演绎经典影视剧的尝试也不在少数,这里就不一一列举了。

那么最后的问题是——

Wan2.2-S2V怎么做到的?

背后技术细节

根据官方透露,Wan2.2-S2V采用了多项创新技术。

在模型训练上,通义万相团队构建了超60万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。

然后基于通义万相视频生成基础模型能力,它融合了文本引导的全局运动控制音频驱动的细粒度局部运动,从而实现复杂场景的音频驱动视频生成。

同时通过引入AdaIN+CrossAttention两种控制机制,来让音频和画面锁死,解决同步问题。

搞定这些基础之后,为了实现长视频生成,模型还利用层次化帧压缩技术,大幅降低了历史帧的Token数量——

将motion frames(历史参考帧)的长度从数帧拓展到73帧,从而实现了稳定的长视频生成效果。

此外,通过多分辨率训练、支持模型多分辨率的推理,模型最后还能支持不同分辨率场景(如竖屏短视频、横屏影视剧)的视频生成需求。

截至目前,加上此次发布的Wan2.2-S2V,阿里通义基本已经聚齐了视频生成“全家桶”——

包括文生视频、图生视频、首尾帧生视频、全能编辑模型,所有这些加起来,通义模型家族在开源社区和三方平台的下载量已超2000万。

显而易见,AI视频生成正在迎来“通义时刻”。

立即体验:
通义万相官网:https://tongyi.aliyun.com/wanxiang/generate
阿里云百炼API:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215

开源地址:
Github:https://github.com/Wan-Video/Wan2.2
魔搭社区:https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B
HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B

参考链接:
[1]https://x.com/Alibaba_Wan/status/1960350593660367303
[2]https://mp.weixin.qq.com/s/GnfWVpk6EotfmbNTUPvuMg
[3]https://x.com/hazimeno_ipoo/status/1960365063824621734


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


专属AI产品从业者的实名社群,只聊AI产品最落地的真问题 资讯配图 扫码添加小助手,发送「姓名+公司+职位」申请入群~
资讯配图
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
文心开源服务站赋能DAY·深圳站——开源生态助深圳打造AI先锋城市
拆解中美AI攻防战:深度解读中国AI的开源突围与西方的霸权封闭计划
Intern-S1技术报告出炉!来看看开源大模型如何在科学领域性能碾压GPT-4o~
资讯速递 | 最新BCI开源软件平台:无代码开发脑机接口
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
ICCV'25开源 | 浙大新作H3R:打造通用3D重建!提速200%!
字节首次开源推理模型,连夺7项第一
全球开源大模型,前十五名全是中国的
开源复现o3图像思考!快手让AI不再被动看图,模型自主生成代码调用工具
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号