读懂AI视频下半场:为什么产品比模型更重要

智能情报所 2025-10-24 16:30
读懂AI视频下半场:为什么产品比模型更重要图1

去年,似乎每周都会有一个新的前沿视频模型超越同行,不断刷新我们的期待。

我们已经习惯于简单地期望那些可衡量基准的持续进步:更长的视频输出、更连贯的故事、更好的物理效果、角色一致性、动作连贯性等等。

但到了今年,我们现在几乎期望所有视频模型都能生成 10-15 秒、具有音画和语音同步、且充满全方位真实感的视频。

这固然是一项了不起的成就,但并非我们过去习以为常的那种模型性能的失控式增长。

相反,我们正在进入一个更激动人心的时期:视频模型的产品时代。

在这个时代,丰裕指的不是基准性能,而是多样性。

我们开始看到模型沿着特定维度进行专业化:并不存在一个万能的神级模型。

初创公司正在两个主要维度上寻找新机会:一是在某一个关键点上表现卓越的视频模型(例如物理效果、动漫风格、多镜头生成!),二是在产品层面将繁琐的工作流程抽象化。

这对初创公司来说是件好事:它为垂直领域和市场切入点创造了空间,这些领域和切入点本身就有可能成长为巨大的公司。

模型的简短历史

在过去几年里,前沿扩散模型实验室不断发布在主要基准上超越前代的新模型。

这种进步向研究人员、创作者以及(是的)像我这样的风险投资人灌输了一种假设:

一个万能的神级模型最终会出现,并成为众多不同视频用例的默认供应商。

但今年,这一假设受到了挑战:Sora 2 于上月发布,但在 LMarena 等基准测试中表现却落后于 Veo 3。

这让人感觉,扩散模型层面的进展可能正在放缓,而SOTA(即最先进水平)的概念,至少在视频模型领域,可能并不真的存在。

当然,这种假设(以及随后与现实的碰撞)并非扩散模型所独有。

前沿实验室的大语言模型在 2023 年至 2025 年间也遵循了阶梯式的进步模式,随后在各种基准上的表现开始趋于平稳。

当大语言模型领域发生这种情况时,我们看到主要的基础模型实验室开始专注于特定垂直领域,同时整个 AI 产品层开始腾飞;

读懂AI视频下半场:为什么产品比模型更重要图2

来源:Epoch AI

仔细想想,视频模型(至少在公共基准上)的进展开始进入平台期是合乎逻辑的。

模型在真实感和美学质量方面已经取得了长足的进步,现在生成的输出已经非常逼真,以至于在这一点上,它们可能正在触及一条渐近线。

这里一个很好的类比可能是 17 和 18 世纪的静物画:在某个阶段,古代大师们已经非常擅长绘制逼真的肖像画和田园风光...

...以至于偏爱某位艺术家而非另一位,已经变成了一个纯粹的审美趣味问题,而不是基于任何衡量“更真实”的客观标准。

那么,当真实感不再是视频模型的差异化因素时,会发生什么呢?

我们迎来了更多的多样性和专业化。欢迎来到丰裕时代。

模型正在专业化

在我们探讨模型层日益增强的专业化趋势之前,我们值得沿着记忆长河漫步(或者更确切地说,刷屏回顾)一番。

早在 2024 年初,我曾写过一篇文章,盘点当时视频模型的输出状况。

那时,生成超过 3-4 秒的视频都非常困难。物理效果简直是个笑话:人可能会随机地熔化到地面里;篮球可能会从篮板上弹起,弹向地面,然后在最后一帧奇迹般地落入篮筐。

当时我评论说,我们还需要很长时间才能看到 AI 生成皮克斯级别的短片。

谷歌那时还没有发布 Veo,或任何公开模型;他们只是不断地用研究论文来吊吊大家的胃口。

世事变化真快。

谷歌现在凭借其 Veo 模型在 LMArena 和其他排行榜上独占鳌头。

OpenAI 正在用一个 30 人的团队,计划在九个月内制作一部耗资 3000 万美元的动画长片。

但即使模型在整体上变得越来越好,我们也开始看到它们走向专业化。为什么?

因为没有一个模型能精通一切。

有些团队在优化输出的价格和速度。另一些团队则在后期训练上全力以赴,显然专注于特定的垂直领域。

以下是我观察到的一些例子:

  • Veo 3:对物理效果、复杂运动以及音画和语音同步的掌控能力最强。
  • Sora 2:能根据一个简短的提示为执导,编写脚本(通常很有趣!)并创建多个镜头。
  • Wan:一个坚实的开源参与者,拥有一个由 LoRA 组成的生态系统,用于实现特定的风格、动作或效果。
  • Grok:速度快、价格低廉,尤其擅长日本动漫和动画。
  • Seedance Pro:可以在一次生成中产生多镜头场景。
  • Hedra:擅长生成会说话角色的长片段。

比较 Sora 2 和 Veo 3 的输出,可以很好地说明模型是如何开始专业化的。两者都是卓越的视频模型,但我认为它们擅长截然不同的事情。

Sora 擅长将你自己(或朋友)置入某个场景中,并根据一个简短的提示打造一个故事(或梗图、或笑话),比如那些斯蒂芬·霍金的运动剪辑或皮卡丘出现在著名电影中的视频。

它对消费者和梗图制作者非常友好。

然而,它在音画同步方面不如 Veo 3。你经常会得到多个快速剪辑,其中音频滞后或者说话的人不对。

在我看来,它在理解物理或任何更复杂运动方面也稍逊一筹。

相比之下,Veo 3 没什么幽默感,需要更多引导,但我认为对于专业消费者和职业创意人士来说,它是一个更强大、更可控的模型。

这种模型专业化的趋势对技术栈上下游的参与者来说也是积极的。

像 Fal 和 Replicate 这样的 AI 视频云服务提供商现在托管着数十种模型,供用户访问这些不同的垂直用例。

而像 Krea 这样的编辑套件则为用户提供了一个中心枢纽,允许他们与多个模型交互,并围绕它们构建完整的工作流。

当然,我仍然期望看到那些资本极其雄厚的实验室试图在视频领域实现上帝模式,我们也希望并期待看到性能的持续改进!

但是,在某个特定用例或某个垂直领域中做到最好,也同样存在着海量机会。

读懂AI视频下半场:为什么产品比模型更重要图3

面向大众的产品

在产品层面,要赶上模型的进展,仍然有巨大的发展空间。我们需要更好的端到端产品。

创作者们正在跨多种产品拼凑出复杂的工作流,以实现那些模型本可以轻易完成的事情——

例如,跨代际获得一致的角色,通过获取上一个剪辑的最后一帧来延长场景...

...使用图像编辑模型通过起始帧和结束帧来控制摄像机运动,或者拼接故事板。

好消息是,一些实验室已经开始着手解决这一产品鸿沟。

Runway 发布了一系列应用,使创作者能够编辑摄像机角度、进行下一镜头视频生成、在剪辑之间执行风格迁移、改变天气以及在剪辑中添加或移除物品。

Sora 使用户能够在视频序列中指定每一刻的具体动作。

而本月早些时候发布的 Veo 3.1,则几乎完全由围绕音频和视觉控制的产品更新组成,而不是模型层面的改进。

未来,我很高兴能看到更小、更专业的模型出现。

很可能会有相应的产品来引导这些模型,针对特定用例或行业(如家居布置、市场营销或动画)产生最佳的生成内容。

最后,我们仍然需要创意套件来将所有模态整合在一起,使其能在一个地方更轻松地生成和编辑:包括视频、配音、音乐等等。

作者:a16z 合伙人 JUSTINE MOORE


一键三连

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
最低3329元!夸克AI眼镜预售开启:硬件“拉满”背后,阿里生态才是杀手锏?
读懂AI视频下半场:为什么产品比模型更重要
AI座舱的“升维密码”:整车智能的下一个爆点
马斯克:台积电和三星电子都将为特斯拉代工AI5芯片
iPhone Air栽了!续航差、eSIM坑,销量崩盘停产,国产Air凭啥敢接招?
华为最新光通信架构AI-OTN,如何应对AI浪潮?
从浆板水花到算力爆炸,Sora2揭开OpenAI二次革命的序幕
惠普星Book AIPC系列双11大促,星Book Pro 16大屏战力本力荐
AI 时代,鸿蒙给开发者发了张「新船票」
Meta裁员挥刀AI大动脉,田渊栋离职引发硅谷疯抢
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号