百度用50天将视频价格打到行业70%！内部负责人：成本优化还有空间

作者 | 褚杏娟

8 月 21 日，百度蒸汽机（MuseSteamer）音视频一体化模型完成重大升级，在行业内首次实现多人有声视频一体化生成。其 Turbo 版、Lite 版、Pro 版及有声版全面开放，用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验，企业用户可在千帆平台享受高性能视频生成服务。

据介绍，百度蒸汽机是全球首个中文音视频一体化生成的 I2V 模型，不仅支持环境音效，更支持多角色语音的一体化生成。百度蒸汽机 2.0 有声版模型让 AIGC 视频创作彻底告别了配音，创作者对完美视听语言的一切想象，只需要一张图和提示词。

以中文切入，五大技术突破

在生成技术方面，百度蒸汽机 2.0 版本进行了更深入的探索和拓展。根据介绍，此次升级有五大核心技术突破：

行业首次实现多人有声音视频一体化生成，语音与唇形、表情、动作的毫秒级精准对齐，复杂场景下依然稳定；
首创多模态潜在空间规划技术（Latent Multi-Modal Planner），自主协调多角色身份、情感与互动逻辑，保障电影级叙事连贯性；
中文场景深度适配，以超 98% 的还原度精准呈现中文语音细节与情感表达；
端到端电影级画质生成，通过精准主体动态刻画，打造真实细腻的人物表现力；
大师级运镜控制，内置数十种专业镜头语言，精准响应文本指令，实现视觉细节与创意意图的完美对齐。

“我们推出的模型是首个支持中文的音视频一体化生成大模型。”百度商业研发首席架构师李双龙表示。在面向中文用户的设计中，团队重点关注中文特有的发音习惯和语境表达。通过大规模的中文语料训练以及本地化数据润色，模型能更好地理解并生成符合中文语言特点的内容。

李双龙介绍，研发中的核心难点首先在于实现“形、声、音容”一体化的生成效果，尤其是在多角色场景中，画面要连续自然，声音要真实可信，更重要的是口型、表情、动作与语音节奏要完全对得上，实现自然互动。这是一项复杂的技术任务。

目前，模型还存在一些可优化的方面，例如音色与人物的匹配度。百度商业体系商业研发总经理刘林表示，当前在音色方面，团队采用生成加检索的方式逐步构建音色库，未来将持续扩充和优化，以实现更匹配人物、场景和情境的声音表现。

其次，端到端训练是实现一体化生成的关键。与业内常见的“模块化”路径不同，蒸汽机团队采用一体化的方式直接生成完整内容，这要求模型在技术架构上具备更高的集成能力和整体优化能力，也带来了显著的工程挑战。尤其在多角色一致性方面，传统方法通常依赖人工预设，比如提前安排发言顺序、内容及音色，而蒸汽机通过统一的潜在空间规划，让模型在生成过程中自主决定人物的对话逻辑与互动情绪。

未来，视频生成技术将朝着更长时长、实时生成与交互方向发展。

当前生成内容以短片段为主，限制在 5 秒到 10 秒，而实际应用如数字人直播或电影长镜头，需无限时长生成能力。但当前主要受限于以扩散模型为主的技术架构——延长生成时长会导致成本呈平方级增长。例如，从 10 秒增至 20 秒甚至 100 秒，成本可能增加上百倍，因此现有架构难以支撑无限时长视频的生成。

扩散模型在一致性和生成质量上具有优势，但在实时生成上存在瓶颈；自回归模型虽适合序列生成，但存在误差累积问题，将两个架构结合起来也不能解决误差累积问题。据悉，蒸汽机团队在结合两者优点的基础上进行了创新，目前已取得内部突破，既保持生成一致性，也提升流畅度和叙事合理性，同时减少误差累积，相关进展将在后续版本中发布。

如何做到定价低至行业 70%

随着百度蒸汽机全系版本开放，百度同步公布了极具竞争力的价格体系。针对不同需求用户，平台提供了梯度会员服务，价格低至行业同类产品的 70%。

“刊例价之外，我们还面向 B 端和 C 端用户，包括绘想平台的会员体系提供各类优惠定价，所有价格均控制在市场水平的七折或更低。”百度副总裁、移动生态商业体系负责人陈一凡说道。

“蒸汽机让好莱坞级大片镜头不再需要百万预算。”曾参与《黑客帝国 3》《变形金刚 3》《三体》等视效工作的国际知名视效指导姚骐，用百度蒸汽机 2.0 制作的科幻短片《归途》共有 40 多个镜头，每个镜头生成 3 次，共用 AI 生成超 120 个片段素材，成本低至百元。

陈一凡表示，在收集需求的过程中发现，除了质量，成本更是用户是否愿意使用的决定性因素。成本若不下降，用户拒绝使用，那根本无从谈及质量提升。因此，团队在模型训练过程中高度重视成本控制。

之所以能够实现如此力度的定价，源于团队多年来在 GPU 算力和工程优化上的积累。如今，利用 GPU 进行搜索、广告和推荐已十分普遍，但自 2016、2017 年起刘林团队便率先推进，因此团队对基于 GPU 的计算架构极为熟悉。得益于此，团队能够精准优化训练过程，包括调整训练集、优化算子等多项工作，显著提升了效率。

“与以往更侧重算法和策略的思路不同，当前大模型的工程实践至关重要，而我们商业团队在工程方面拥有丰富经验，因此在短短几十天内既提升了生成质量，也实现了成本下降。”具体来说，团队依托策略工程架构与底层蒜粒相结合，以及百度智能云百舸平台与自研昆仑芯片的专业适配，共同推动成本下降。

“在发布前的测试中，我们就已经发现成本仍有下探空间，团队将持续优化。我们认为当前用户创作门槛仍不低，即使价格从 2 元降至 1.4 元，生成单条视频的成本仍有一定压力，因此成本优化仍是未来的重点方向。”陈一凡表示。

此外，陈一凡也表示，这一市场不可能像文字生成那样达到极低的成本，因为涉及较重的算力投入。因此，他认为这样的低价不会爆发单纯的价格战。“在一定周期内，降价仍将持续，各家将依据自身商业模式应对经营压力。”

不依赖调用次数的商业模式

”早在两三个月前，我们就已明确：无论是 ToB 还是 ToC 业务，都已有成熟的盈利模式。但对我们而言，最根本的出发点始终是内部需求的驱动。”陈一凡说道。

不同于技术驱动的模式，百度蒸汽机的研发是由应用和需求驱动的新范式。自 7 月初上线以来，百度业务的内部调用量与分发量稳步上升。

据悉，在过去发布的 50 多天中，蒸汽机模型一直提供免费版本，表面上看未带来直接收入，但广告主已经实际使用并开始投放广告，这间接促进了商业收益。同时，创作者在搜索和信息流场景中应用 AIGC 内容，也使用户留存和整体体验有了明显提升。这些变化正是陈一凡所看重的“收入”来源——它不只体现在单次调用费用，而是源于生态价值的整体增强。

“如果这项技术能够帮助用户留存提升哪怕一个百分点，那都将是一个极其显著的进步，而我们目前已经初步观察到了这样的积极信号。这样的提升可以直接反映在百度搜索收入的增长上，其整体带动规模将是相当可观的。”陈一凡说道。

根据百度最新财报，目前搜索流量中已有超过 60% 融入了 AIGC 生成的内容，视频质量显著提升，分发量迅猛增长。通过更精准的分发和更友好的创作者体验，收益提升比降本更具意义。目前百家号日更达数百万条，其中 AIGC 应用占比不断扩大，甚至出现完全由 AIGC 生成的高热度视频。

“我们并非为了替代原有站点内容而生硬切换，而是因为切实带来了用户体验的提升才进行迭代。”陈一凡表示，“这种收益模式与单纯按调用次数收费的方式完全不同，它带动的是整个平台生态的升级和增长。从规模上看，这类收益相比于仅依靠调用量产生的收入，大约高出两个数量级。”

声明：本文为 AI 前线整理，不代表平台观点，未经许可禁止转载。

会议推荐

10 月 23 - 25 日，QCon 上海站即将召开，现在 8 折优惠最后 3 天，单张门票立省 1360 元，详情可联系票务经理 18514549229 咨询。

今日荐文

盘古大模型等部门被裁撤；马斯克刚刚开源 Grok 2.5；法裔女CEO接管OpenAI，奥特曼退居幕后？| AI 周报

在OpenAI炼Agent一年半，回国做出首个开源Agent训练框架！这个30岁清华天才却说：创业不是技术命

创始人跑路一年后，员工接盘把这家AI公司干到年入破亿！如今想含泪甩卖：真的“难以承受”

首个为手机而生的通用Agent？！苹果做不到的事，“野路子”智谱抢先实现了

突发 | 字节跳动开源 Seed-OSS 模型：36B 参数，Apache-2.0 许可，网友：这才是开源的正确打开方式

你也「在看」吗？👇