多人有声音视频一键搞定,定价低至行业70%,百度“蒸汽机”扭转视频生成赛道战局

头部科技 2025-08-23 12:04
资讯配图
资讯配图
文丨谭梓馨
“它让好莱坞级大片镜头不再需要百万预算。”
曾参与《三体》、《2012》、《黑客帝国3》等大片制作的国际知名视效指导姚骐在发布会现场分享了他用AI制作的科幻短片《归途》,该作品共有40多个镜头,超120个片段素材。
相比较传统百万级的演员、场地、设备费用以及繁琐的后期配音、特效等环节,这部短片创作成本只花了330元,背后全靠AI视频生成模型“蒸汽机”的辅助。
资讯配图
7月初百度首次推出蒸汽机1.0模型以来,仅过去50天时间,8月21日,百度蒸汽机模型全系升级至2.0版本,首次实现多人有声视频一体化生成,而且加量不加价,百度商业体系商业研发总经理刘林在发布会现场直言:“我们的模型价格,是行业价格的70%。”
当下,国内外视频生成模型竞争已然十分激烈,百度蒸汽机2.0基于技术突破和价格利刃,给AI视频生成市场带来新变量。
资讯配图
AIGC的iPhone时刻
目前,百度蒸汽机2.0分为Turbo版、Lite版、Pro版及有声版本,其Turbo有声版定价低至1.4元/5秒,进一步降低了使用门槛。
从发布会现场演示来看,除了运镜、画质质感和流畅清晰度的提升,生成的角色表情也更加生动细腻,最值得关注的一点改进是,蒸汽机的音视频一体化生成解决了多人多角色对话、语言与面部、唇形、情绪一致性的问题,实现了“三步并作一步”的效率提升。
AI视频生成中实现真正的“音视频一体化”是当前生成式AI领域最具挑战性的任务之一,它远不止是简单地生成一个视频再配上音频,而是要求模型从底层理解并协同创造视觉和听觉元素,使其成为一个连贯、一致、富有表现力的整体。

就技术层面而言,面临多模态理解与融合、数据集稀缺与高质量数据要求、时序同步对齐等挑战。


据发布会现场介绍,百度蒸汽机2.0基于强化学习的用户prompt增强模型做好衔接用户意图与模型的桥梁,可以将用户简单、模糊、甚至不完整的初始指令,转化为生成模型能够充分理解和执行的高质量、详细、结构化的精准提示。

其次,音视对齐生成技术实现了新的行业水准,在业内首次实现多人有声视频一体化生成,语音与唇形、表情、动作毫秒级对齐,在复杂场景表现中也能呈现自然和谐的视听效果。

然后是多模态潜在空间规划(Latent Multi-Modal Planner)技术,在生成过程中整体规划多角色身份、情感与互动逻辑,确保故事连贯性与真实感。

除了上述迭代突破之外,蒸汽机基于海量中文语料深度训练,据悉对中文语音细节还原度超98%,深度适配中文创作场景,还经过百万级专业运镜数据微调,支持十种运镜语言,技术亮点满满。

蒸汽机2.0为AI视频创作带来更多可能性,创作者可以告别麻烦的后期配音和调试,只需输入图和提示词,剩下的就能全交给AI处理了,让所思即所得,需求即成片,“AICG的iPhone时刻”已然开启。

资讯配图
百度的“生态打法”

数字化时代,视频已经成为网络传播和内容呈现的主流载体,无论是影视制作、社交媒体、在线教育还是广告营销等行业,都对高质量的视频生成内容有着巨大需求。

对于创作者而言,他们可以利用蒸汽机2.0轻松实现自己的创意想法,制作出高质量的短视频、vlog、影视作品等;对于企业来说,蒸汽机2.0则可以帮助快速跟进营销热点,制作出吸引人的创意广告宣传片、产品介绍视频等,降本增效讲好品牌故事。

资讯配图

值得关注的是,百度也正在将各种AI功能进一步打通,除了专门的AI视频创作平台“绘想”,蒸汽机2.0模型还与百度其他产品业务生态进行了无缝融合。

资讯配图

例如,在百度搜索中,用户只需点击生成视频功能即可开展AI视频创作,为用户提供了更加丰富和便捷的搜索延展功能体验;在内容创作领域,百度蒸汽机2.0模型则与创作工具结合,在百家号平台上为创作者打破专业壁垒,度加的一整套AI工具流可以激发和释放更大的个体创作自由度。

资讯配图

对于更多开发需求而言,百度智能云千帆大模型平台也接入了百度蒸汽机模型服务,为企业提供高性能、低成本、安全可控的视频生成解决方案。

千帆同步在AppBuilder上架了蒸汽机MCP Server,以更标准的方式支持企业集成,支持企业在AI开发过程中,将规划Agent、多元组件工具与蒸汽机灵活集成,在输出结果上实现更生动、视频化的结果呈现,支持企业级广告营销、影视创作、创意特效、教育集成、文化传播等AI视频应用落地场景。

资讯配图

整体来看,来自百度各业务场景、不同应用的需求,推动着百度蒸汽机模型快速发展,而视频模型技术的迭代,进一步反哺百度应用生态的多元创新,包括搜索生态、内容生态、商业生态以及云服务生态等。

不同于业界的模型发展多由技术催生,百度蒸汽机的研发更多是由实际应用需求驱动,进而形成一种正向滚动循环迭代,从内容的创作到内容的分发,无论是对于个人还是企业,都能在百度的场域内获得更好的加持。

从多年前开始ALL in AI的百度,现在终于AI in ALL,独特的AI生态竞争优势已然十分凸显。

资讯配图
“不焦虑”的蒸汽机

从技术突围到价格优势能否让百度蒸汽机获得较好的市场生态位成为外界关心的一大话题,毕竟这个赛道中的对手实力都不俗,例如国外的Sora、Runway、Veo等,国内厂商开发的可灵AI、Vidu、即梦AI、PixVerse等等。

百度副总裁、移动生态商业体系负责人陈一凡对头部科技表示,蒸汽机第一时间它是从内部需求驱动,所以面对竞争并不会显得特别焦虑,因为只要内部把基础的RLS(需求-闭环-系统)扎实做好,就能赋能百度既有客户群和用户群,创造出可观的收益,例如AIGC能带来搜索、信息流、广告主业务一个点的提升,可能就是几十亿级别的数字。

“自7月份发布以来,蒸汽机内部的调用量和分发量都在不断提升,在竞争非常激烈的市场环境下,对我们来说反而发挥空间非常大。因为我们内部有数百亿的分发条件,做到对AIGC内容非常友善的分发,在这些条件下只要我们做的质量好,就能创造收益,我们也会从需求出发找差异化的点,能够看到大家真正想要别人却还没有做到的技术,我们就会集中整个研发力量来做技术突破,例如最新推出的多人有声音视频一体化生成技术。”陈一凡说到。

关于下一步的技术布局和前瞻,百度商业研发首席架构师李双龙认为,对于用户而言,未来3-5年,实时的生成、长视频、长镜头的生成仍是很重要的需求点;其次,如果AI生成的视频本身还可交互、可实时改变,会让应用场景得到更大的拓展;最后,能够理解世界、模拟世界的世界模型是整个视频生成模型未来的大方向。

李双龙也透露,现在AI视频生成只能做5秒到10秒,本质上还是整个技术架构所致,当下的技术架构还是以扩散模型为主,生成更长的视频会导致成本指数级飙升,百度现在正在做下一代的新架构技术,目前处于保密状态,但内部测试已经看到了比较好的效果,可能会在下一阶蒸汽机模型中开始应用。

资讯配图

据了解,除了百度AI生态本身能因蒸汽机激发出更大商业价值潜能,百度过去多年在AI芯片、软硬结合和大模型的前期积累也为“行业70%的定价”提供了底层引擎依托,可以兼顾做到极致的性能水准和价格成本优化,与很多竞争对手的商业变现逻辑形成明显差异,未来的使用成本可能还会再往更低的方向走,为重塑市场规则提供了可能。

虽然目前AI视频生成赛道竞争激烈,但伴随着日新月异的技术迭代,商业化仍处于早期阶段,市场变局依旧很大,百度蒸汽机2.0的发布,既是一次技术的迭代,也像是一次清晰的战略宣言,将内生优势转化为产业价值。

AI视频生成的下半场,不仅仅取决于谁能生成最完美酷炫的短片,也取决于谁能最先跑通技术、成本与需求之间的完美商业闭环,真正深度融合场景、解决实际痛点,将想象力转化为生产力,这场竞速,才刚刚开始。

-END-

资讯配图
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。
【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——
扫描下方二维码,添加头部科技晶总微信!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
百度
more
2025百度云智大会·AI+机器人专题论坛圆满收官
真靠谱吗?百度文库GenFlow2.0通用Agent实测
科技快讯 | DeepSeek 透露下一代国产芯片即将发布;百度蒸汽机 2.0 大模型上线...
百度又拿了个第一后,好像找到了自己的节奏
百度全新AI搜索应用“梯子AI”正式上线:无广告智能搜索
百度:支持国产GPU等芯片
人形机器人100家-大脑公司丨百度 Baidu
腾讯最强上市子公司!市值超百度700亿,粉丝排队给它送钱
百度助力天工以“全自主”斩获金银铜牌
36支顶尖高校队伍竞技“机器人+AI”,百度搭建技术落地实践平台提供硬核支撑
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号