
网络上经过数日的传闻发酵,谷歌终于揭晓了其最新的 AI 视频生成模型 Veo 3.1。
它带来了一整套创意和技术升级,旨在提升 AI 视频的叙事控制力、音频整合度以及真实感。
这些更新不仅为创作者们拓展了想象空间,更标志着企业、开发者和创意团队在可扩展、定制化视频工具领域迎来了新的机遇。
更强的性能与独特的风格
新模型的质量更高,物理模拟更真实,而定价保持不变。
同时,它的操控和编辑功能变得空前强大和丰富。
我的初步测试显示,这是一个性能强劲的模型,每次生成的结果都令人赞叹。
但它的画面风格更偏向电影感,显得精致,甚至有些人工雕琢的痕迹。
这与竞争对手 OpenAI 的 Sora 2 有所不同,后者更擅长手持拍摄和生活化的抓拍风格。用户可以根据自己的具体需求来选择。
对叙事与音频的深度掌控
Veo 3.1 在其前身 Veo 3 的基础上,显著增强了对白、环境音效和其他音频效果的支持。
现在,几项核心功能都已原生支持音频生成,包括“图片生成视频”、“多元素融合视频”以及“视频扩展”。
这些功能让用户可以将静态图像转为视频,或将多张图中的元素融合成一个视频,还能将视频从 8 秒延长至 30 秒以上。
在过去,完成这些操作后,你必须手动去添加音频。
这项整合让用户对视频的基调、情感和故事节奏有了更大的掌控力,而这些在以前都需要复杂的后期制作才能实现。
在企业场景中,这种级别的控制力可以减少对独立音频团队的依赖,为制作培训、营销视频等内容提供了一站式的解决方案。
谷歌表示,这些更新是为了回应用户对更强艺术控制和音频支持的呼声。直接在工具内完成修改和完善,而无需从头开始,这一点至关重要。
更丰富的输入与编辑能力
Veo 3.1 支持多种类型的输入,并能对输出结果进行更精细的控制。
模型不仅接受文本、图像和视频作为输入,还支持以下高级功能:
参考图像:最多可提供三张图片,用以指导最终视频的视觉风格。
首尾帧插值:在固定的开头和结尾之间,无缝生成中间的场景。
场景扩展:让视频的动作或情节自然地延续下去。
这些工具为企业提供了一种微调内容观感的方法,对于保持品牌形象的统一性至关重要。
此外,谷歌还引入了“插入对象”和“移除元素”等新功能,不过部分功能尚未通过其开发者接口提供。
灵活的跨平台部署
用户可以通过谷歌的多个现有服务来使用 Veo 3.1:
Flow:谷歌官方的 AI 辅助电影制作平台。
Gemini API:面向希望将视频能力集成到自己应用中的开发者。
Vertex AI:即将支持场景扩展等关键功能的企业级平台。
这种多平台策略,允许企业根据自身团队和工作流程,自由选择最适合的接入方式。
定价与访问权限
Veo 3.1 模型目前处于预览阶段,仅通过 Gemini API 的付费服务提供。
其费用结构与上一代模型 Veo 3 完全相同:
标准模型:每秒视频 0.40 美元 快速模型:每秒视频 0.15 美元
服务没有免费额度,只有视频成功生成时才会计费。这种定价模式对注重预算的企业团队来说,成本清晰可控。
技术规格与输出控制
Veo 3.1 可输出 720p 或 1080p 分辨率的视频,帧率为 24 帧每秒。
单次生成时长可选 4、6 或 8 秒。通过“扩展”功能,视频最长可达 148 秒,超过了两分半钟。
新功能还包括对画面主体和环境的更强控制。
例如,企业可以上传一张产品图作为参考,Veo 3.1 就能在整个视频中保持其外观和风格,这将极大简化广告和零售行业的创意生产流程。
来自社区的初步反馈
对于 Veo 3.1 的发布,创作者和开发者社区的反应褒貶不一,既有乐观期待,也有审慎的批评。
AI 创业者 Matt Shumer 的初步感受是“失望”,他认为 Veo 3.1 不仅“明显不如 Sora 2”,而且“价格也贵了不少”。 不过他也承认,谷歌提供的配套工具,如参考图和场景扩展功能,是此次发布的一大亮点。
3D 数字艺术家 Travis Davids 对此有类似看法。他称赞了模型在音效和对白方面的进步,但也指出了系统存在的局限。 这些问题包括:不支持自定义语音,无法直接选择配音,以及单次生成上限仍为 8 秒。 他还提到,要跨镜头保持角色一致性,仍需复杂的提示词技巧,而 Sora 2 在这方面处理得更出色。
另一方面,AI 领域的作者 @kimmonismus 则认为“Veo 3.1 非常惊艳”,尽管他最终也认为 OpenAI 的最新模型总体更优。
这些早期反馈表明,虽然 Veo 3.1 提供了强大的工具,但在质量和易用性上,整个行业的标杆正在被竞争对手迅速拉高。
应用规模与未来展望
谷歌透露,自 Flow 平台上线五个月以来,用户已通过 Veo 系列模型生成了超过 2.75 亿个视频。
如此快的普及速度,反映出自动化内容创作正受到个人与企业的强烈关注。
谷歌产品总监 Thomas Iljic 强调,Veo 3.1 的许多功能正向专业电影制作流程看齐,例如场景构图、镜头连续性和音画协调。这些恰恰是企业希望自动化或简化的领域。
安全与责任
Veo 3.1 生成的所有视频都使用谷歌的 SynthID 技术嵌入了不可见的数字水印,以标明其 AI 生成的身份。
同时,谷歌通过安全过滤器来降低隐私和版权风险。生成的内容会临时存储两天,之后便会自动删除。
对于企业而言,这些措施为内容的来源和合规性提供了关键保障。
Veo 3.1 的行业站位
Veo 3.1 不仅仅是一次常规迭代,它更深度地整合了多模态输入、叙事控制和企业级工具。
对专业人士来说,它能优化工作流;对企业来说,它在培训、广告等领域的自动化潜力价值更大。
然而,用户反馈也清晰地指出,市场对真实感、语音控制和生成时长的期望正在飞速提升。
Veo 3.1 在企业市场的最终地位,将取决于谷歌能否快速响应并解决这些用户的核心痛点。
一键三连「