百度用50天将视频价格打到行业70%!内部负责人:成本优化还有空间

AI前线 2025-08-28 15:28
资讯配图
作者 | 褚杏娟

8 月 21 日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,在行业内首次实现多人有声视频一体化生成。其 Turbo 版、Lite 版、Pro 版及有声版全面开放,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。

资讯配图

据介绍,百度蒸汽机是全球首个中文音视频一体化生成的 I2V 模型,不仅支持环境音效,更支持多角色语音的一体化生成。百度蒸汽机 2.0 有声版模型让 AIGC 视频创作彻底告别了配音,创作者对完美视听语言的一切想象,只需要一张图和提示词。

以中文切入,五大技术突破

在生成技术方面,百度蒸汽机 2.0 版本进行了更深入的探索和拓展。根据介绍,此次升级有五大核心技术突破:

  • 行业首次实现多人有声音视频一体化生成,语音与唇形、表情、动作的毫秒级精准对齐,复杂场景下依然稳定;

  • 首创多模态潜在空间规划技术(Latent Multi-Modal Planner),自主协调多角色身份、情感与互动逻辑,保障电影级叙事连贯性;

  • 中文场景深度适配,以超 98% 的还原度精准呈现中文语音细节与情感表达;

  • 端到端电影级画质生成,通过精准主体动态刻画,打造真实细腻的人物表现力;

  • 大师级运镜控制,内置数十种专业镜头语言,精准响应文本指令,实现视觉细节与创意意图的完美对齐。

“我们推出的模型是首个支持中文的音视频一体化生成大模型。”百度商业研发首席架构师李双龙表示。在面向中文用户的设计中,团队重点关注中文特有的发音习惯和语境表达。通过大规模的中文语料训练以及本地化数据润色,模型能更好地理解并生成符合中文语言特点的内容。

李双龙介绍,研发中的核心难点首先在于实现“形、声、音容”一体化的生成效果,尤其是在多角色场景中,画面要连续自然,声音要真实可信,更重要的是口型、表情、动作与语音节奏要完全对得上,实现自然互动。这是一项复杂的技术任务。

目前,模型还存在一些可优化的方面,例如音色与人物的匹配度。 百度商业体系商业研发总经理刘林表示,当前在音色方面,团队采用生成加检索的方式逐步构建音色库,未来将持续扩充和优化,以实现更匹配人物、场景和情境的声音表现。

其次,端到端训练是实现一体化生成的关键。与业内常见的“模块化”路径不同,蒸汽机团队采用一体化的方式直接生成完整内容,这要求模型在技术架构上具备更高的集成能力和整体优化能力,也带来了显著的工程挑战。尤其在多角色一致性方面,传统方法通常依赖人工预设,比如提前安排发言顺序、内容及音色,而蒸汽机通过统一的潜在空间规划,让模型在生成过程中自主决定人物的对话逻辑与互动情绪。

未来,视频生成技术将朝着更长时长、实时生成与交互方向发展。

当前生成内容以短片段为主,限制在 5 秒到 10 秒,而实际应用如数字人直播或电影长镜头,需无限时长生成能力。但当前主要受限于以扩散模型为主的技术架构——延长生成时长会导致成本呈平方级增长。例如,从 10 秒增至 20 秒甚至 100 秒,成本可能增加上百倍,因此现有架构难以支撑无限时长视频的生成。

扩散模型在一致性和生成质量上具有优势,但在实时生成上存在瓶颈;自回归模型虽适合序列生成,但存在误差累积问题,将两个架构结合起来也不能解决误差累积问题。据悉,蒸汽机团队在结合两者优点的基础上进行了创新,目前已取得内部突破,既保持生成一致性,也提升流畅度和叙事合理性,同时减少误差累积,相关进展将在后续版本中发布。

如何做到定价低至行业 70%

随着百度蒸汽机全系版本开放,百度同步公布了极具竞争力的价格体系。针对不同需求用户,平台提供了梯度会员服务,价格低至行业同类产品的 70%。

“刊例价之外,我们还面向 B 端和 C 端用户,包括绘想平台的会员体系提供各类优惠定价,所有价格均控制在市场水平的七折或更低。”百度副总裁、移动生态商业体系负责人陈一凡说道。

“蒸汽机让好莱坞级大片镜头不再需要百万预算。”曾参与《黑客帝国 3》《变形金刚 3》《三体》等视效工作的国际知名视效指导姚骐,用百度蒸汽机 2.0 制作的科幻短片《归途》共有 40 多个镜头,每个镜头生成 3 次,共用 AI 生成超 120 个片段素材,成本低至百元。

陈一凡表示,在收集需求的过程中发现,除了质量,成本更是用户是否愿意使用的决定性因素。成本若不下降,用户拒绝使用,那根本无从谈及质量提升。因此,团队在模型训练过程中高度重视成本控制。

之所以能够实现如此力度的定价,源于团队多年来在 GPU 算力和工程优化上的积累。如今,利用 GPU 进行搜索、广告和推荐已十分普遍,但自 2016、2017 年起刘林团队便率先推进,因此团队对基于 GPU 的计算架构极为熟悉。得益于此,团队能够精准优化训练过程,包括调整训练集、优化算子等多项工作,显著提升了效率。

“与以往更侧重算法和策略的思路不同,当前大模型的工程实践至关重要,而我们商业团队在工程方面拥有丰富经验,因此在短短几十天内既提升了生成质量,也实现了成本下降。”具体来说,团队依托策略工程架构与底层蒜粒相结合,以及百度智能云百舸平台与自研昆仑芯片的专业适配,共同推动成本下降。

“在发布前的测试中,我们就已经发现成本仍有下探空间,团队将持续优化。我们认为当前用户创作门槛仍不低,即使价格从 2 元降至 1.4 元,生成单条视频的成本仍有一定压力,因此成本优化仍是未来的重点方向。”陈一凡表示。

此外,陈一凡也表示,这一市场不可能像文字生成那样达到极低的成本,因为涉及较重的算力投入。因此,他认为这样的低价不会爆发单纯的价格战。“在一定周期内,降价仍将持续,各家将依据自身商业模式应对经营压力。”

不依赖调用次数的商业模式

”早在两三个月前,我们就已明确:无论是 ToB 还是 ToC 业务,都已有成熟的盈利模式。但对我们而言,最根本的出发点始终是内部需求的驱动。”陈一凡说道。

不同于技术驱动的模式,百度蒸汽机的研发是由应用和需求驱动的新范式。自 7 月初上线以来,百度业务的内部调用量与分发量稳步上升。

据悉,在过去发布的 50 多天中,蒸汽机模型一直提供免费版本,表面上看未带来直接收入,但广告主已经实际使用并开始投放广告,这间接促进了商业收益。同时,创作者在搜索和信息流场景中应用 AIGC 内容,也使用户留存和整体体验有了明显提升。这些变化正是陈一凡所看重的“收入”来源——它不只体现在单次调用费用,而是源于生态价值的整体增强。

“如果这项技术能够帮助用户留存提升哪怕一个百分点,那都将是一个极其显著的进步,而我们目前已经初步观察到了这样的积极信号。这样的提升可以直接反映在百度搜索收入的增长上,其整体带动规模将是相当可观的。”陈一凡说道。

根据百度最新财报,目前搜索流量中已有超过 60% 融入了 AIGC 生成的内容,视频质量显著提升,分发量迅猛增长。通过更精准的分发和更友好的创作者体验,收益提升比降本更具意义。目前百家号日更达数百万条,其中 AIGC 应用占比不断扩大,甚至出现完全由 AIGC 生成的高热度视频。

“我们并非为了替代原有站点内容而生硬切换,而是因为切实带来了用户体验的提升才进行迭代。”陈一凡表示,“这种收益模式与单纯按调用次数收费的方式完全不同,它带动的是整个平台生态的升级和增长。从规模上看,这类收益相比于仅依靠调用量产生的收入,大约高出两个数量级。”

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

10 月 23 - 25 日,QCon 上海站即将召开,现在 8 折优惠最后 3 天,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。

资讯配图

今日荐文

盘古大模型等部门被裁撤;马斯克刚刚开源 Grok 2.5;法裔女CEO接管OpenAI,奥特曼退居幕后?| AI 周报

在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命

创始人跑路一年后,员工接盘把这家AI公司干到年入破亿!如今想含泪甩卖:真的“难以承受”

首个为手机而生的通用Agent?!苹果做不到的事,“野路子”智谱抢先实现了

突发 | 字节跳动开源 Seed-OSS 模型:36B 参数,Apache-2.0 许可,网友:这才是开源的正确打开方式

资讯配图

你也「在看」吗?👇

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
百度
more
对话百度陈一凡:1.4元生成一条视频不算太便宜,AI生成视频成本还会继续降
百度正式发布AI搜索APP“梯子AI”:主打无广告智能搜索!
科技快讯 | DeepSeek 透露下一代国产芯片即将发布;百度蒸汽机 2.0 大模型上线...
百度又拿了个第一后,好像找到了自己的节奏
一文解码百度地图AI超视距感知红绿灯倒计时
业绩翻倍,百度萝卜快跑全球业务高速增长
真靠谱吗?百度文库GenFlow2.0通用Agent实测
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025百度云智大会·AI+机器人专题论坛圆满收官
AI女友24h陪玩,全球800万人上头!这群AI创企靠百度开挂
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号