Veo3.1和Sora2同题竞技来了

鹭羽发自凹非寺
量子位 | 公众号 QbitAI

硬刚Sora2，谷歌刚刚发布新动作——Veo3.1。

时隔五个月的更新，Veo3.1在创意控制方面带来了更多功能改进：

可以更深入地理解指令，捕捉更为真实的纹理，并增强图像到视频的功能。

其中最值得关注的是，和Sora2一样，这次Veo3.1新增支持音频生成。

（Sora2：完了，这波真冲我来的……）

同样都强调音视频一体化生成，突出物理真实性，追求相同的复杂长视频，且都是文生+图生视频模型。

还有谷歌和OpenAI“恩怨情仇”这层关系在，Sora2和Veo3.1妥妥的天选对家。

不过至于他俩谁更强，还得实测见真章。

电影制作级的创意控制

据官方介绍，Veo3.1的此次更新，主要目标还是为电影制作人、艺术创作者提供更为完整的故事叙事和创意控制。

这也是过去几个月里他们从Flow得到的经验之谈——短短五个月，Flow共计生成超2.75亿个视频，其中用户集中反映Veo3真实尚可、艺术欠佳。

于是Veo3.1应运而生。

首先是备受瞩目的音频能力，在Veo3基础之上，将音频生成引入原有的“成分到视频”、“帧到视频”和“扩展”能力中。

成分到视频：用户可以同时使用多个不同人物或物体的参考图像，来控制角色和画面风格，并通过Veo3.1将图像整合在一个带有完整音频的场景中。
帧到视频：通过提供首帧和尾帧图像，Veo3.1将无缝补充中间细节，构建起完整故事内容，非常适用于画面转场过渡。
场景扩展：基于视频的最后一秒，延续故事背景生成更长的片段，最长可持续一分钟或更久，同时保持人物动作一致性，这将有利于带时长需求的定点镜头。

另外，Veo3.1也引入了更为精确的编辑能力。

通过“插入”功能，可以向任意场景添加任意新元素，无论是对细节的打磨还是补充场景丰富度，Veo3.1都能轻松搞定。

同时，Veo3.1还在场景阴影、照明等复杂环境中做了进一步优化，能够确保元素添加足够自然。

如果想要删除一些不需要的对象或字符，通过重建周围环境，Veo3.1现在也能做到。

目前，Veo3.1已经上线Flow，用户也可以通过Gemini API、Vertex AI和Gemini app抢先体验。

Sora2和Veo3.1硬碰硬

不过想必大家最关心的还是，Sora2和Veo3.1相比，谁更强？

在两个模型中使用相同的提示：在堵车时生成一辆飞天汽车。

显然Veo3.1在画面真实性上效果更佳，无论是对车辆细节的刻画，还是车辆运行过程中周围环境的变化，Veo3.1都处理得更好。

而且在合成音效上，Veo3.1的视频中也能明显听到汽车发动的引擎声。

再比如说，让大猩猩和猴子们一起唱英文歌。

Sora2和Veo3.1走得还是两种截然不同的音乐风格，一个走抒情路线一个西海岸嘻哈。

整体来看，Veo3.1的画面饱和度更高，有好莱坞动画的feel，而Sora2不愧于AI版抖音的名号，短视频音乐主包的味儿很浓。

Sora2中的猴子们都在充当乐手各司其职，而Veo3.1中的猴子更多的是氛围担当，画面后期还出现了一处小bug——树干上的三只猴子动作在后期趋向同质化。

不过有一说一，Veo3.1在光线处理上确实yyds。

那么在动漫风格上，又表现如何呢？

老实说，有种国漫VS日漫的感觉……

Sora2的故事情节更好，表情也相对自然，完成度比Veo3.1更高。

另外，也有网友表示Sora2比Veo3.1更擅长人物的位置关系，想象力也会更加丰富，但是文生视频上Veo3.1更优。

或许正如网友总结的那样：二者各有优劣，不能说某一方完全压倒性胜利，各自有自己所擅长的和待改进的地方。

谷歌强调物理现实世界，Sora优先考虑娱乐性。

那么你会更倾向于哪一个呢？欢迎在评论区留言讨论。

参考链接：
[1]https://blog.google/technology/ai/veo-updates-flow/
[2]https://x.com/biz_art_fun/status/1978607050017120470
[3]https://x.com/kongmindset/status/1978558207510639066
[4]https://x.com/SSSS_CRYPTOMAN/status/1978596075788534107

鹭羽 发自 凹非寺量子位 | 公众号 QbitAI

电影制作级的创意控制

Sora2和Veo3.1硬碰硬

鹭羽发自凹非寺
量子位 | 公众号 QbitAI