谷歌发布 Veo 3.1：这款新的 AI 视频模型对企业意味着什么？

网络上经过数日的传闻发酵，谷歌终于揭晓了其最新的 AI 视频生成模型 Veo 3.1。

它带来了一整套创意和技术升级，旨在提升 AI 视频的叙事控制力、音频整合度以及真实感。

这些更新不仅为创作者们拓展了想象空间，更标志着企业、开发者和创意团队在可扩展、定制化视频工具领域迎来了新的机遇。

新模型的质量更高，物理模拟更真实，而定价保持不变。

同时，它的操控和编辑功能变得空前强大和丰富。

我的初步测试显示，这是一个性能强劲的模型，每次生成的结果都令人赞叹。

但它的画面风格更偏向电影感，显得精致，甚至有些人工雕琢的痕迹。

这与竞争对手 OpenAI 的 Sora 2 有所不同，后者更擅长手持拍摄和生活化的抓拍风格。用户可以根据自己的具体需求来选择。

Veo 3.1 在其前身 Veo 3 的基础上，显著增强了对白、环境音效和其他音频效果的支持。

现在，几项核心功能都已原生支持音频生成，包括“图片生成视频”、“多元素融合视频”以及“视频扩展”。

这些功能让用户可以将静态图像转为视频，或将多张图中的元素融合成一个视频，还能将视频从 8 秒延长至 30 秒以上。

在过去，完成这些操作后，你必须手动去添加音频。

这项整合让用户对视频的基调、情感和故事节奏有了更大的掌控力，而这些在以前都需要复杂的后期制作才能实现。

在企业场景中，这种级别的控制力可以减少对独立音频团队的依赖，为制作培训、营销视频等内容提供了一站式的解决方案。

谷歌表示，这些更新是为了回应用户对更强艺术控制和音频支持的呼声。直接在工具内完成修改和完善，而无需从头开始，这一点至关重要。

Veo 3.1 支持多种类型的输入，并能对输出结果进行更精细的控制。

模型不仅接受文本、图像和视频作为输入，还支持以下高级功能：

这些工具为企业提供了一种微调内容观感的方法，对于保持品牌形象的统一性至关重要。

此外，谷歌还引入了“插入对象”和“移除元素”等新功能，不过部分功能尚未通过其开发者接口提供。

用户可以通过谷歌的多个现有服务来使用 Veo 3.1：

这种多平台策略，允许企业根据自身团队和工作流程，自由选择最适合的接入方式。

Veo 3.1 模型目前处于预览阶段，仅通过 Gemini API 的付费服务提供。

其费用结构与上一代模型 Veo 3 完全相同：

服务没有免费额度，只有视频成功生成时才会计费。这种定价模式对注重预算的企业团队来说，成本清晰可控。

Veo 3.1 可输出 720p 或 1080p 分辨率的视频，帧率为 24 帧每秒。

单次生成时长可选 4、6 或 8 秒。通过“扩展”功能，视频最长可达 148 秒，超过了两分半钟。

新功能还包括对画面主体和环境的更强控制。

例如，企业可以上传一张产品图作为参考，Veo 3.1 就能在整个视频中保持其外观和风格，这将极大简化广告和零售行业的创意生产流程。

对于 Veo 3.1 的发布，创作者和开发者社区的反应褒貶不一，既有乐观期待，也有审慎的批评。

AI 创业者 Matt Shumer 的初步感受是“失望”，他认为 Veo 3.1 不仅“明显不如 Sora 2”，而且“价格也贵了不少”。不过他也承认，谷歌提供的配套工具，如参考图和场景扩展功能，是此次发布的一大亮点。
3D 数字艺术家 Travis Davids 对此有类似看法。他称赞了模型在音效和对白方面的进步，但也指出了系统存在的局限。这些问题包括：不支持自定义语音，无法直接选择配音，以及单次生成上限仍为 8 秒。他还提到，要跨镜头保持角色一致性，仍需复杂的提示词技巧，而 Sora 2 在这方面处理得更出色。
另一方面，AI 领域的作者 @kimmonismus 则认为“Veo 3.1 非常惊艳”，尽管他最终也认为 OpenAI 的最新模型总体更优。

这些早期反馈表明，虽然 Veo 3.1 提供了强大的工具，但在质量和易用性上，整个行业的标杆正在被竞争对手迅速拉高。