AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2

当AI视频不再只像过去那样比拼高清像素，而是开始进入“飙演技”阶段，AI视频才算正式迈入内容生产的最高级形式——影视级叙事新阶段。

9月25日，生数科技新一代图生视频大模型Vidu Q2正式全球上线，打破了原有AI生成的表情太假，动作飘忽不定，运动幅度不够大，无法指哪打哪的行业问题，实现从“视频生成”到“演技生成”，从“动态流畅”到“情感表达”的革命性跨越，标志着AI视频生成技术正式从追求“形似”进入追求“神似”的新纪元，将为内容创作、影视产业、广告营销等领域带来全新升级。Vidu Q2图生视频功能不仅能胜任复杂表情变化的文戏，常见的多人打斗场景的武戏，而且还能完美呈现大片中的炫酷特效。

据了解，相比于今年上半年发布的Vidu Q1模型，此次发布的Vidu Q2图生视频功能在极致细微表情生成、推拉运镜、语义理解、生成速度与时长选择方面都有了大幅提升，主要有4大亮点：

1、AI演技更生动——不仅能生成视频，更有生动演技

2、镜头语言更丰富——运镜自然流畅，创作更显张力

3、语义理解更准确——创意直达画面，想象即刻成真

4、时长选择更自由——时长选择灵活，满足更多场景

此外，为了满足用户对于生成速度和生成质量的不同需求，Vidu Q2图生视频分为闪电模式和电影大片模式。闪电模型下20秒就能生成 5秒 1080P视频片段，满足极速出片的需求；电影大片模式则主要满足对于复杂表演、运镜等有更高要求的用户。

目前，Vidu Q2图生视频功能已同步在其Web 端、APP端以及API上线。

1.AI演技更生动

AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2 | 甲子光年图2

前不久的威尼斯电影节，辛芷蕾以极其精湛的演技获得了威尼斯国际电影节最佳女主角奖。对于演技派来说，最高的褒奖是演什么像什么，看了让人产生共鸣和代入感。而这种代入感往往是通过演员的细微情绪变化实现的，在短短几秒中突显人物情绪张力，表达人物性格，推动故事发展。

此前AI生成的短剧、长片或多或少都存在人物表情僵硬、不自然，演技浮夸的情形，很难表现角色复杂细腻的情绪。而此次发布的Vidu Q2图生视频则突破“最后一道壁垒”，在细微表情生成中的技术被成功攻克，使数字角色能够展现出生动且充满感染力的演技，赋予了AI角色以生命力。

我们可以让AI演员和电影演员同台PK演技，复刻《甜蜜蜜》张曼玉经典片段，短短5秒时间呈现从微笑——委屈——难过三种复杂情绪。左边是电影原片段，右边是Vidu Q2图生视频生成的，人物演技非常自然，三种情绪之间的转换很有呼吸感，即使努力压抑，但是仍然流露出委屈和难过，对比来看AI 生成的视频与原视频并无显著差别。

原视频

Vidu Q2

真正的老戏骨每一个细胞都在演戏。这次Vidu Q2图生视频相比于Q1，在细腻的情绪表达上有了明显提升，即使一个眼神也能述说故事。

输入图片

AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2 | 甲子光年图4

Vidu Q2图生视频

上述例子中，特写聚焦于一个金发碧眼老人的半边脸，周围的火焰将老人的脸照得通红，他轻轻地眨了眨眼，眼泪中饱含泪水，一滴眼泪从右眼中缓缓流下。即使没有任何言语和环境渲染，也让人对战争的残酷感同身受，AI人的演技足可以媲美真人。

在动漫场景中，Vidu Q2的表现也相当惊艳，表情惟妙惟肖更有代入感。在小狐狸的案例中，从瞪大眼睛的惊喜，到躲在石头后面的惊讶和害怕，耳朵竖了起来，再到稍微放松警惕后的无奈，表情的变化似乎在告诉观众好像有什么突如其来的大事发生。小狐狸灵动的演技有迪士尼动画那味了。

AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2 | 甲子光年图5

在多个角色互动场景中，Vidu Q2的表现也可圈可点。下面案例中，一男一女笑得合不拢嘴，之后女生捂着嘴笑，男生低头笑着擦了擦眼睛，两人再互相对视，真实得仿佛进入了某个播客的录制现场。

再拿Vidu Q2图生视频和其他AI视频产品作对比。下面案例中，Vidu Q2生成的视频每个表情都表现非常精准，从淡淡地微笑到嘴唇微张，眼神从微微向下看到望向远方。其他AI 视频则完全没有表现出细微表情的变化，视线仅表现了看向远方。

提示词：视线微偏镜头下方，嘴角轻上扬但不露齿，下巴略收。随后瞳孔微放大，眼神越过镜头远点，嘴唇湿润轻启。

Vidu Q2

其他

下面古装戏场景中，其他家虽然也表现了表情凝重，但是演技比较单一，仅是完成了提示词要求，最后抬手也没有碰到额头，给人不真实的感觉。对比来看，Vidu Q2的表情层次更加丰富，不仅严格遵循了提示词，而且AI自动设计了眼神和动作的变化，表演上“更为走心”，首先男人边喘着粗气边表情凝重地看向远方，紧接着视线收回，嘴巴微闭，抬起手擦了擦额头，把凝重又疲惫的感觉演绎得非常到位。

提示词：这是一个美丽的夕阳场景，阳光照着古战场，空气中有着漂浮的灰尘，男人喘着粗气进行简单的休息，表情凝重，最后用手擦了一下额头

Vidu Q2

其他

从“AI木头”到“AI演技派”，从浮夸演技到内心戏，Vidu Q2 新一代AI演技的诞生，预测未来将在影视短剧、数字人、广告营销等多个领域有广泛应用。

不仅如此，Vidu Q2还是个能文能武的全能型演技派，在武打戏上也是个“老戏骨”。

此前AI视频普遍存在的问题是，运动飘忽不定，就连现实生活中常见的跑步和打篮球场景都很难实现，多人打戏更是需要依靠超高的提示词技巧和多次生成，即使这样打戏也是软弱无力，像是自动放了2倍慢速，毫无看点。

Vidu Q2图生视频在运动幅度上有明显提升，即使是比较有挑战的连续运动（比如打架、打拳等）场面也能精准还原，实现真正的“拳拳到肉”。

下面双人拳击场景中，红方迅速出拳，蓝方快速躲避并迅速来了个左勾拳，红方连续出拳后，红蓝方稍作停顿，双方都发起反攻，蓝方用双手防备后开启猛攻，连续三次攻打红方腹部后退回原地，瞬间带入拳击比赛现场，紧张气氛拉满。

AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2 | 甲子光年图6

如果把真实场景中的人物换成动画中的小林和悟空，效果也同样惊人。悟空跳跃后放出大招冲击波，之后与小林连续多次出拳过招，双方打斗的同时也伴随着炫酷的动画特效，生成的视频兼具速度和力量感，让人看得十分过瘾。

Vidu Q2 甚至不需要复杂的提示词也能呈现非常精彩的打戏。

如下面案例中，长发女生手持光剑与周围的多个小型机器人进行激烈对战，女生奔跑，蹲下，站起来用光剑与迎面而来的小型机器人对抗，一跃而起后转而被其他机器人打击退回原地。如此复杂的打戏，提示词却相当简单，“流畅的奔跑，爽快的打斗，合理安排不同镜头，自由运镜”，这也意味着Vidu Q2 对于动作的理解和生成能力已经进化到Next level了。

AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2 | 甲子光年图7

更为值得一提的是，Vidu Q2图生视频即使在如此大幅度的运动下，仍然能保持角色较高的一致性，不会出现人物模糊或者变脸的情况。这对于影视、动漫制作来说至关重要，背后得益于Vidu在一致性上的投入。去年Vidu在全球首个推出了参考生视频功能，将AI视频的可控一致性拉到了新的高度，而此次推出的Vidu Q2则延续了其作为一致性开创者的优势。

2.镜头语言更丰富

AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2 | 甲子光年图8

当其他家都在鼓吹好莱坞级别运镜时，一向低调务实的Vidu 已经直接让新手小白做影视大片了。据了解，Vidu Q2 可轻松实现从宏观全景到微观特写的快速切换，以营造更具冲击力的视觉效果。

为了让AI视频更能满足广告电商、影视动漫等较为复杂的运镜需求，Vidu Q2图生视频在复杂运镜上做到了秒级精准可控。

如下面的动画案例中，侠客挥舞着剑到变身闪电狼，中间有6个镜头切换，包括从特写直接切到大全景，同时还需要配合侠客转身同时腾空而起等动作，即使在现实拍摄场景中挑战也很大，但从实际生成效果来看， Q2 生成的画面镜头和AI人物配合默契，整个动作一气呵成，非常丝滑。

AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2 | 甲子光年图9

在极速运动场景下的大幅度镜头切换非常考验空间理解能力和主体稳定性，对于AI视频来说极具挑战，但是Vidu Q2的表现却非常完美。从全景到赛车手眼神特写再到冲线后的观众席特写，Vidu Q2在整个过程中对于推拉摇移镜头的调度极为流畅，跟随镜头下突显了赛车手全力冲刺的紧张感和速度感，同时也反映了赛场周围的热闹气氛。

提示词：颠簸镜头跟随
镜头一：全景推进跟随FI赛车前景
镜头二：切换戴F1赛车头盔的驾驶员紧张驾驶F1赛车眼神
镜头三：特写F1赛车加速仪表
镜头四：F1赛车驾驶员第一人称视角，赛车加速前进
镜头五：F1赛车快速行驶全景视角，冲向终点
镜头六，F1赛车冲线后，看台上欢呼庆祝的观众特写视角

3.语义理解更准确

AI视频生成走向“演技生成”时代，生数科技Vidu全球发布Vidu Q2 | 甲子光年图10

无论是AI演技的提升还是运镜的精准拿捏，其实质上是Vidu Q2 在动作理解、表情理解和镜头语言理解上的飞升。据了解，由于Vidu Q2 在上下文推理、图像及语义理解和物理仿真能力上的提升，使其在提示词遵从上有了质的飞跃，有创作者评价为言出法随，指哪打哪。内容创作者不再需要像过去一样反复抽卡、反复调整提示词和输入画面，大幅减少了视频生成次数，可直接将创意转化为想要的视频画面。

在实际测试中发现，Vidu Q2像是一位严格听话同时又具备合理想象力的“AI 导演”。

下面的案例中，提示词要求在8秒中精确切换4个不同的镜头，完成从猫猫在街头弹古筝，到从古筝中飞出邪恶的骷髅战士的复杂叙事，可以看到生成的视频中不仅严格遵循了复杂的提示词的所有要求，而且骷髅战士从一团白气中突然出现的画面非常惊艳，镜头切换也很流畅。

提示词：
1-2s：坐着的猫轻轻抚动古琴琴弦，镜头快速推近；

3-4s：近距离大特写猫邪恶诡异的一笑，然后突然变得凶狠，镜头先推近拍摄同时向右环绕运镜拉远到侧面；

5s：猫用力拨动琴弦；

6-8s：琴弦释放出白色亮光魔法灵气，灵气向左冲刺，然后灵气幻化形成一个拿着刀的气态邪恶骷髅战士向左高速飞行，镜头高速跟踪拍摄同时推近运镜