鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
硬刚Sora2,谷歌刚刚发布新动作——Veo3.1。

时隔五个月的更新,Veo3.1在创意控制方面带来了更多功能改进:
可以更深入地理解指令,捕捉更为真实的纹理,并增强图像到视频的功能。
其中最值得关注的是,和Sora2一样,这次Veo3.1新增支持音频生成。
(Sora2:完了,这波真冲我来的……)
同样都强调音视频一体化生成,突出物理真实性,追求相同的复杂长视频,且都是文生+图生视频模型。
还有谷歌和OpenAI“恩怨情仇”这层关系在,Sora2和Veo3.1妥妥的天选对家。
不过至于他俩谁更强,还得实测见真章。
电影制作级的创意控制
据官方介绍,Veo3.1的此次更新,主要目标还是为电影制作人、艺术创作者提供更为完整的故事叙事和创意控制。

这也是过去几个月里他们从Flow得到的经验之谈——短短五个月,Flow共计生成超2.75亿个视频,其中用户集中反映Veo3真实尚可、艺术欠佳。
于是Veo3.1应运而生。
首先是备受瞩目的音频能力,在Veo3基础之上,将音频生成引入原有的“成分到视频”、“帧到视频”和“扩展”能力中。
成分到视频:用户可以同时使用多个不同人物或物体的参考图像,来控制角色和画面风格,并通过Veo3.1将图像整合在一个带有完整音频的场景中。
帧到视频:通过提供首帧和尾帧图像,Veo3.1将无缝补充中间细节,构建起完整故事内容,非常适用于画面转场过渡。
场景扩展:基于视频的最后一秒,延续故事背景生成更长的片段,最长可持续一分钟或更久,同时保持人物动作一致性,这将有利于带时长需求的定点镜头。
另外,Veo3.1也引入了更为精确的编辑能力。
通过“插入”功能,可以向任意场景添加任意新元素,无论是对细节的打磨还是补充场景丰富度,Veo3.1都能轻松搞定。
同时,Veo3.1还在场景阴影、照明等复杂环境中做了进一步优化,能够确保元素添加足够自然。
如果想要删除一些不需要的对象或字符,通过重建周围环境,Veo3.1现在也能做到。
目前,Veo3.1已经上线Flow,用户也可以通过Gemini API、Vertex AI和Gemini app抢先体验。
Sora2和Veo3.1硬碰硬
不过想必大家最关心的还是,Sora2和Veo3.1相比,谁更强?
在两个模型中使用相同的提示:在堵车时生成一辆飞天汽车。
显然Veo3.1在画面真实性上效果更佳,无论是对车辆细节的刻画,还是车辆运行过程中周围环境的变化,Veo3.1都处理得更好。
而且在合成音效上,Veo3.1的视频中也能明显听到汽车发动的引擎声。
再比如说,让大猩猩和猴子们一起唱英文歌。
Sora2和Veo3.1走得还是两种截然不同的音乐风格,一个走抒情路线一个西海岸嘻哈。
整体来看,Veo3.1的画面饱和度更高,有好莱坞动画的feel,而Sora2不愧于AI版抖音的名号,短视频音乐主包的味儿很浓。
Sora2中的猴子们都在充当乐手各司其职,而Veo3.1中的猴子更多的是氛围担当,画面后期还出现了一处小bug——树干上的三只猴子动作在后期趋向同质化。
不过有一说一,Veo3.1在光线处理上确实yyds。
那么在动漫风格上,又表现如何呢?
老实说,有种国漫VS日漫的感觉……
Sora2的故事情节更好,表情也相对自然,完成度比Veo3.1更高。
另外,也有网友表示Sora2比Veo3.1更擅长人物的位置关系,想象力也会更加丰富,但是文生视频上Veo3.1更优。
或许正如网友总结的那样:二者各有优劣,不能说某一方完全压倒性胜利,各自有自己所擅长的和待改进的地方。
谷歌强调物理现实世界,Sora优先考虑娱乐性。

那么你会更倾向于哪一个呢?欢迎在评论区留言讨论。
参考链接:
[1]https://blog.google/technology/ai/veo-updates-flow/
[2]https://x.com/biz_art_fun/status/1978607050017120470
[3]https://x.com/kongmindset/status/1978558207510639066
[4]https://x.com/SSSS_CRYPTOMAN/status/1978596075788534107