腾讯开源视频音效生成模型!从海浪到引擎轰鸣,电影级音效AI一键生成

智东西 2025-08-28 19:41

资讯配图资讯配图

汽车驶过湿路、风车吱呀作响,腾讯混元大模型可以为视频配音效了。
作者 |  李水青
编辑 |  心缘
智东西8月28日消息,今日,腾讯混元开源端到端视频音效生成模型HunyuanVideo-Foley。基于该模型,用户只需输入视频和文字,就能为视频匹配电影级音效
资讯配图
比如,用户输入一个视频和文本描述“With a faint sound as their hands parted, the two embraced, a soft ‘mm’ escaping between them.(两人相离时,发出一声轻微的响动,随即相拥在一起,一声轻柔的 “mm” 从彼此间溢出。)”,就会输出以下视频。
用户也可以通过Hunyuan-Foley生成流行的ASMR(自发性知觉经络反应)类音频,体验“听觉爽感”,比如木头切开的声音。
由混元团队公布的测评情况可知,HunyuanVideo-Foley在音频保真度、视觉语义对齐、时间对齐、分布匹配等方面均达到全新的SOTA(最佳水平)
资讯配图
该模型主要要以下三大核心亮点
1、多场景音视频同步:支持生成与复杂视频场景同步、语义一致的高质量音频,增强影视、游戏应用的真实感和沉浸感。
2、多模态语义平衡:智能平衡视觉与文本信息分析,综合编排音效元素,避免片面生成,满足个性化配音需求。
3、高保真音频输出:自研48kHz音频VAE完美重构音效、音乐、人声,达到专业级音频生成品质。
即日起,用户可在GitHub、HuggingFace下载模型,技术报告已公布。
资讯配图
 
GitHub地址:
https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
Hugging Face地址:
https://huggingface.co/tencent/HunyuanVideo-Foley
技术报告地址:
https://arxiv.org/abs/2508.16930

01.
突破音效生成的三大难题
主体可泛化,声音更细腻


HunyuanVideo-Foley的提升聚焦解决现有的音频生成技术的泛化能力不足、语义响应不均衡、音质粗糙等痛点。下面是混元官方公布的一系列Demo。
在泛化能力方面,该模型可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。
例如输入文本描述:Splash of water and loud thud as person hits the surface.(水花飞溅,伴随着人砸向水面时沉闷的巨响。
输出视频:
文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.(小狐狸的爪子踩过树叶与细枝,发出沙沙的摩擦声与清脆的碎裂声。
输出视频:
文本描述:Creaking of old wooden windmill.(老旧木制风车发出的吱呀声。
输出视频:
文本描述:Electric guitar power chords ringing out loudly and resonating.(电吉他强力和弦奏响,声音洪亮,余韵回荡。
输出视频:
在多模态语义均衡响应方面,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效。
例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为 “海浪声” 时,HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声,甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。
输出视频:
在专业级音频保真度方面,HunyuanVideo-Foley显著提升了音频生成质量和稳定性,极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。
比如输入文字描述:A car drives over the wet road.(一辆汽车驶过潮湿的路面。
输出视频:
可以看到,无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,均达到不错的效果。
文字描述:Engine revving loudly and accelerating.(引擎轰然轰鸣,随即加速运转。
输出视频:
HunyuanVideo-Foley生成的音频能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

02.
10万小时高质量数据集支持
拿下多项行业SOTA


TV2A (文本-视频-音频)任务是一项复杂的多模态生成挑战,需要大规模、高质量的数据集。
为实现可扩展的多模态数据集构建,混元团队开发了一个全面的数据处理管道,能够系统地识别并排除不合适的内容,构建了约10万小时级的高质量TV2A数据集,为模型训练提供了强大支撑,从而提供强大且可泛化的音频生成能力。
资讯配图
HunyuanVideo-Foley混合架构,具有多模态和单模态Transformer模块:
资讯配图
多模态Transformer模块:同时处理视音频流。
单模态Transformer模块:专注于音频流细化。
视觉编码:预训练编码器从视频帧中提取视觉特征。
文本处理:通过预训练文本编码器提取语义特征。
音频编码:具有高斯噪声扰动的潜在表示。
时间对齐:基于同步器的帧级同步与门控调制。
在权威评测基准MovieGen-Audio-Bench测试集中,HunyuanVideo-Foley的核心指标相对当前最先进的MMAudio模型实现显著提升。
其中音频质量指标 PQ(AudioBox-Aesthetics)从6.17提升至6.59,视觉语义对齐指标IB从0.27提升至0.35;在时序对齐指标DeSync上从0.80优化至0.74,均达到当前SOTA水平。
在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。
资讯配图

03.
结语:从能看到能听
无声AI视频成为历史 


HunyuanVideo-Foley的推出,标志着混元在音视频生成领域迈入新的阶段,不仅直击过往音效生成的泛化不足与失真痛点,更实现了高质量、多模态、沉浸式的体验。
从影视制作到游戏开发,再到沉浸式内容创作,这一技术突破或将深刻改变音频产业链,推动多模态生成应用走向新的高度。
资讯配图
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源
more
刚刚更新,全球AI百强:中国五款产品进前20,ChatGPT背腹受敌,氛围编程成黑马
心影随形x百度智能云:发布当日三次扩容,助力逗逗AI达成900万用户成就
当主控SoC遇上AI大模型,物奇智能蓝牙芯片驱动端侧AI新场景
国产AI芯片龙头回应一切!
直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑
AI人才争夺战加大薪资差距,OpenAI前副总裁:能留住人才是最重要的
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
OpenAI/微软争夺AGI控制权!重组谈判激烈,年底谈不成软银700亿或撤
【报告】AI专题三:2025年AI营销新范式应用指南(附PDF下载)
【AI Agent展】smardaten copilot——全场景智能应用开发助手
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号