一句话，让黑神话钟馗开口说话！体验百度蒸汽机2.0的音画同步，口型还能对得上吗？

智东西AI前瞻 2025-08-21 20:21

资讯配图

全球首个中文音视频一体化大模型！

作者 | 江宇

编辑 | 漠影

智东西8月21日报道，今日，百度正式发布百度蒸汽机2.0大模型，是全球首个支持中文音视频一体化生成的大模型。在原有图生视频能力基础上，本次新增“有声版”，具备支持环境音效、人声对白及嘴型同步能力，支持画面与声音的同步生成。

蒸汽机2.0具备“形神音容”一体化生成能力，将原本需要分别完成的三个步骤——视频画面、配音效与对白同步，整合为一次生成完成，也被形容为“三步并一步”。

价格方面，蒸汽机Turbo有声版定价为1.4元/5秒，据百度蒸汽机透露，这一价格大约是行业平均成本的七成。

01.

从“静音图像”到“全声动态”

蒸汽机强化镜头语言与声音整合

相比传统视频生成流程需逐步完成图像、音效、对白等环节，百度此次发布的蒸汽机“有声版”模型尝试将这些过程整合至单一模型内完成。

该模型还引入了更复杂的镜头语言，包括“绕镜”等动态运镜方式，同时配合大规模提示词理解能力的升级，使得用户即便输入较为简短的自然语言，也能生成画面流畅、镜头调度自然的视频内容。

资讯配图

同时，在声音方面，蒸汽机模型不仅同步生成环境声与人声，还尝试做到人物动作与唇形的匹配。

资讯配图

该模型支持“多人对话、嘴型对齐、角色情绪同步”等多模态生成任务，背后由“多模态潜在空间规划”机制支持，能在建模阶段统一安排角色身份、语气、对话内容与视觉呈现，使得成片更具整体感与叙事一致性。

此外，百度也强调了中文场景的适配能力，包括中文发音结构的唇形匹配、语境识别与本地化音色模拟，在中文语境下具备更高拟真度。

02.

体验：画面风格不同，声音能力初步开放

智东西上手体验了百度蒸汽机2.0视频模型的四个版本，分别对应不同的生成能力侧重。

资讯配图

1、蒸汽机2.0 Turbo（标准基础款）：冲浪者与巨浪共舞

这段效果很好，阳光透过海浪的光感很自然，画面层次感强。冲浪者的动作也很顺畅，整体看不太出是AI生成的，挺接近实拍的质感。

资讯配图

2、蒸汽机2.0 Pro（精准响应，画质清晰）：海底世界的美丽鱼群

鱼群游动的画面非常逼真，鱼鳃这些细节都保留得不错，海底的珊瑚也非常统一，视觉上挺舒服的。就是偶尔几帧里，鱼尾有点失真。

3、蒸汽机2.0 Lite（创意简单表达，极速生成）：雨夜霓虹，城市漫步

前景的行人走路还算自然，但背景里有些人动作有点僵硬，甚至还有“瞬间消失”的Bug。不过雨夜氛围保留得不错，水塘里的雨滴、霓虹倒影这些细节挺到位的，整体画面观感还行。

资讯配图

4、蒸汽机2.0 有声版（支持音效生成）：钟馗出场

本次体验首帧图选用了游戏科学最新发布的《黑神话·钟馗》预告片中的一幕。智东西尝试了三个不同提示词的生成结果，人物形象没问题，老虎的形象也挺还原，背景音效基本跟提示词能对上。

比较有意思的是，起初的两次尝试，“怒吼”这个关键词在两段视频中被模型理解成了不同的主体：一段是钟馗怒吼，一段则是老虎发声。而提示词中提到的“倒吸凉气”声效未响应，不过背景音的氛围感呈现尚可。

在第三次调整提示词后，钟馗的台词得到了较准确的还原，音色、语气与人物形象较为契合，嘴型同步效果也很清晰，声音生成与画面衔接更为自然。

提示词1：需背景音。主体（虎背上的钟馗）低头静止，缓慢抬头，抬头瞬间，背后有两三人传出倒吸凉气的害怕声。同时，坐骑老虎有一声怒吼。场景为山林、低雾、阴雨天气，整体氛围压抑、肃杀。

提示词2：需背景音。主体低头静止，缓慢抬头，抬头瞬间，背后有两三人传出倒吸凉气的害怕声。同时，坐骑老虎有一声怒吼。场景为山林、低雾、阴雨天气，整体氛围压抑、肃杀。

提示词3：需背景音。主体为骑在虎背上的钟馗，初始低头静止，随后缓慢抬头。在抬头至目视前方的瞬间，钟馗开口喊道：“罚恶司——钟馗！”声音洪亮、有气势。阴雨天气，氛围压抑肃杀。

03.

结语：一体化生成已站稳

表现仍需持续打磨

百度此次将“画面、音效、对白”打包生成，仍具一定标志性。相比早期“静音片段+后期配音”的做法，如今一体化生成的路径的确更省力也更直观。

但从当前体验来看，声音生成的准确性与口型协调仍存在一定差距，尤其在多角色对话、强调动作与台词同步的场景下，模型的时序控制还未完全成熟。不过，整体上百度蒸汽机在“形神音容”一体化生成方向上，迈出了可见的一步。

资讯配图

资讯配图

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

百度

more

对话百度文库：不做大模型能直接做的事，能力积累换来竞争壁垒｜AI产品Time

量子位 1周前

对话百度文库：不做大模型能直接做的事，能力积累换来竞争壁垒｜AI产品Time

成WAIC上的“小学生之王”！百度悄悄杀进了教育市场

雷科技 3周前

成WAIC上的“小学生之王”！百度悄悄杀进了教育市场

“AI打工人”上线，百度推出7款数字员工，布局企业级Agent

头部科技 2周前

“AI打工人”上线，百度推出7款数字员工，布局企业级Agent

百度发布全球首个全端通用智能体GenFlow2.0

百度AI 2天前

百度发布全球首个全端通用智能体GenFlow2.0

DeepSeek 流失的用户，超一半去了百度？这份 AI 产品报告还有哪些「反常识」趋势

APPSO 4天前

DeepSeek 流失的用户，超一半去了百度？这份 AI 产品报告还有哪些「反常识」趋势

多人有声视频一体化生成！用百度最新AI生成营销视频，现在1.4元/5秒

量子位 20小时前

多人有声视频一体化生成！用百度最新AI生成营销视频，现在1.4元/5秒

理想回应大量负面评价，传百度月底前发布AI推理新模型，必应免费接入GPT-4o，美团回应兑换券被召回，这就是今天的其他大新闻！

差评X.PIN 2周前

理想回应大量负面评价，传百度月底前发布AI推理新模型，必应免费接入GPT-4o，美团回应兑换券被召回，这就是今天的其他大新闻！

一天吃透一条产业链：自动驾驶测试（百度小马智行竞速）

新事时序 2天前

一天吃透一条产业链：自动驾驶测试（百度小马智行竞速）

业绩翻倍，百度萝卜快跑全球业务高速增长

盖世具身智能 21小时前

业绩翻倍，百度萝卜快跑全球业务高速增长

少赚几十亿广告费，百度真和AI拼了？

差评X.PIN 15小时前

少赚几十亿广告费，百度真和AI拼了？

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号