
8 月 21 日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,在行业内首次实现多人有声视频一体化生成。其 Turbo 版、Lite 版、Pro 版及有声版全面开放,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。

据介绍,百度蒸汽机是全球首个中文音视频一体化生成的 I2V 模型,不仅支持环境音效,更支持多角色语音的一体化生成。百度蒸汽机 2.0 有声版模型让 AIGC 视频创作彻底告别了配音,创作者对完美视听语言的一切想象,只需要一张图和提示词。
在生成技术方面,百度蒸汽机 2.0 版本进行了更深入的探索和拓展。根据介绍,此次升级有五大核心技术突破:
行业首次实现多人有声音视频一体化生成,语音与唇形、表情、动作的毫秒级精准对齐,复杂场景下依然稳定;
首创多模态潜在空间规划技术(Latent Multi-Modal Planner),自主协调多角色身份、情感与互动逻辑,保障电影级叙事连贯性;
中文场景深度适配,以超 98% 的还原度精准呈现中文语音细节与情感表达;
端到端电影级画质生成,通过精准主体动态刻画,打造真实细腻的人物表现力;
大师级运镜控制,内置数十种专业镜头语言,精准响应文本指令,实现视觉细节与创意意图的完美对齐。
“我们推出的模型是首个支持中文的音视频一体化生成大模型。”百度商业研发首席架构师李双龙表示。在面向中文用户的设计中,团队重点关注中文特有的发音习惯和语境表达。通过大规模的中文语料训练以及本地化数据润色,模型能更好地理解并生成符合中文语言特点的内容。
李双龙介绍,研发中的核心难点首先在于实现“形、声、音容”一体化的生成效果,尤其是在多角色场景中,画面要连续自然,声音要真实可信,更重要的是口型、表情、动作与语音节奏要完全对得上,实现自然互动。这是一项复杂的技术任务。
目前,模型还存在一些可优化的方面,例如音色与人物的匹配度。 百度商业体系商业研发总经理刘林表示,当前在音色方面,团队采用生成加检索的方式逐步构建音色库,未来将持续扩充和优化,以实现更匹配人物、场景和情境的声音表现。
其次,端到端训练是实现一体化生成的关键。与业内常见的“模块化”路径不同,蒸汽机团队采用一体化的方式直接生成完整内容,这要求模型在技术架构上具备更高的集成能力和整体优化能力,也带来了显著的工程挑战。尤其在多角色一致性方面,传统方法通常依赖人工预设,比如提前安排发言顺序、内容及音色,而蒸汽机通过统一的潜在空间规划,让模型在生成过程中自主决定人物的对话逻辑与互动情绪。
未来,视频生成技术将朝着更长时长、实时生成与交互方向发展。
当前生成内容以短片段为主,限制在 5 秒到 10 秒,而实际应用如数字人直播或电影长镜头,需无限时长生成能力。但当前主要受限于以扩散模型为主的技术架构——延长生成时长会导致成本呈平方级增长。例如,从 10 秒增至 20 秒甚至 100 秒,成本可能增加上百倍,因此现有架构难以支撑无限时长视频的生成。
扩散模型在一致性和生成质量上具有优势,但在实时生成上存在瓶颈;自回归模型虽适合序列生成,但存在误差累积问题,将两个架构结合起来也不能解决误差累积问题。据悉,蒸汽机团队在结合两者优点的基础上进行了创新,目前已取得内部突破,既保持生成一致性,也提升流畅度和叙事合理性,同时减少误差累积,相关进展将在后续版本中发布。
随着百度蒸汽机全系版本开放,百度同步公布了极具竞争力的价格体系。针对不同需求用户,平台提供了梯度会员服务,价格低至行业同类产品的 70%。
“刊例价之外,我们还面向 B 端和 C 端用户,包括绘想平台的会员体系提供各类优惠定价,所有价格均控制在市场水平的七折或更低。”百度副总裁、移动生态商业体系负责人陈一凡说道。
“蒸汽机让好莱坞级大片镜头不再需要百万预算。”曾参与《黑客帝国 3》《变形金刚 3》《三体》等视效工作的国际知名视效指导姚骐,用百度蒸汽机 2.0 制作的科幻短片《归途》共有 40 多个镜头,每个镜头生成 3 次,共用 AI 生成超 120 个片段素材,成本低至百元。
陈一凡表示,在收集需求的过程中发现,除了质量,成本更是用户是否愿意使用的决定性因素。成本若不下降,用户拒绝使用,那根本无从谈及质量提升。因此,团队在模型训练过程中高度重视成本控制。
之所以能够实现如此力度的定价,源于团队多年来在 GPU 算力和工程优化上的积累。如今,利用 GPU 进行搜索、广告和推荐已十分普遍,但自 2016、2017 年起刘林团队便率先推进,因此团队对基于 GPU 的计算架构极为熟悉。得益于此,团队能够精准优化训练过程,包括调整训练集、优化算子等多项工作,显著提升了效率。
“与以往更侧重算法和策略的思路不同,当前大模型的工程实践至关重要,而我们商业团队在工程方面拥有丰富经验,因此在短短几十天内既提升了生成质量,也实现了成本下降。”具体来说,团队依托策略工程架构与底层蒜粒相结合,以及百度智能云百舸平台与自研昆仑芯片的专业适配,共同推动成本下降。
“在发布前的测试中,我们就已经发现成本仍有下探空间,团队将持续优化。我们认为当前用户创作门槛仍不低,即使价格从 2 元降至 1.4 元,生成单条视频的成本仍有一定压力,因此成本优化仍是未来的重点方向。”陈一凡表示。
此外,陈一凡也表示,这一市场不可能像文字生成那样达到极低的成本,因为涉及较重的算力投入。因此,他认为这样的低价不会爆发单纯的价格战。“在一定周期内,降价仍将持续,各家将依据自身商业模式应对经营压力。”
”早在两三个月前,我们就已明确:无论是 ToB 还是 ToC 业务,都已有成熟的盈利模式。但对我们而言,最根本的出发点始终是内部需求的驱动。”陈一凡说道。
不同于技术驱动的模式,百度蒸汽机的研发是由应用和需求驱动的新范式。自 7 月初上线以来,百度业务的内部调用量与分发量稳步上升。
据悉,在过去发布的 50 多天中,蒸汽机模型一直提供免费版本,表面上看未带来直接收入,但广告主已经实际使用并开始投放广告,这间接促进了商业收益。同时,创作者在搜索和信息流场景中应用 AIGC 内容,也使用户留存和整体体验有了明显提升。这些变化正是陈一凡所看重的“收入”来源——它不只体现在单次调用费用,而是源于生态价值的整体增强。
“如果这项技术能够帮助用户留存提升哪怕一个百分点,那都将是一个极其显著的进步,而我们目前已经初步观察到了这样的积极信号。这样的提升可以直接反映在百度搜索收入的增长上,其整体带动规模将是相当可观的。”陈一凡说道。
根据百度最新财报,目前搜索流量中已有超过 60% 融入了 AIGC 生成的内容,视频质量显著提升,分发量迅猛增长。通过更精准的分发和更友好的创作者体验,收益提升比降本更具意义。目前百家号日更达数百万条,其中 AIGC 应用占比不断扩大,甚至出现完全由 AIGC 生成的高热度视频。
“我们并非为了替代原有站点内容而生硬切换,而是因为切实带来了用户体验的提升才进行迭代。”陈一凡表示,“这种收益模式与单纯按调用次数收费的方式完全不同,它带动的是整个平台生态的升级和增长。从规模上看,这类收益相比于仅依靠调用量产生的收入,大约高出两个数量级。”
声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。
10 月 23 - 25 日,QCon 上海站即将召开,现在 8 折优惠最后 3 天,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。

今日荐文
盘古大模型等部门被裁撤;马斯克刚刚开源 Grok 2.5;法裔女CEO接管OpenAI,奥特曼退居幕后?| AI 周报
在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命
创始人跑路一年后,员工接盘把这家AI公司干到年入破亿!如今想含泪甩卖:真的“难以承受”
首个为手机而生的通用Agent?!苹果做不到的事,“野路子”智谱抢先实现了
突发 | 字节跳动开源 Seed-OSS 模型:36B 参数,Apache-2.0 许可,网友:这才是开源的正确打开方式

你也「在看」吗?👇