汽车驶过湿路、风车吱呀作响,腾讯混元大模型可以为视频配音效了。作者 | 李水青 编辑 | 心缘 智东西8月28日消息,今日,腾讯混元开源端到端视频音效生成模型HunyuanVideo-Foley。基于该模型,用户只需输入视频和文字,就能为视频匹配电影级音效。比如,用户输入一个视频和文本描述“With a faint sound as their hands parted, the two embraced, a soft ‘mm’ escaping between them.(两人相离时,发出一声轻微的响动,随即相拥在一起,一声轻柔的 “mm” 从彼此间溢出。)”,就会输出以下视频。用户也可以通过Hunyuan-Foley生成流行的ASMR(自发性知觉经络反应)类音频,体验“听觉爽感”,比如木头切开的声音。由混元团队公布的测评情况可知,HunyuanVideo-Foley在音频保真度、视觉语义对齐、时间对齐、分布匹配等方面均达到全新的SOTA(最佳水平)。该模型主要要以下三大核心亮点:1、多场景音视频同步:支持生成与复杂视频场景同步、语义一致的高质量音频,增强影视、游戏应用的真实感和沉浸感。2、多模态语义平衡:智能平衡视觉与文本信息分析,综合编排音效元素,避免片面生成,满足个性化配音需求。3、高保真音频输出:自研48kHz音频VAE完美重构音效、音乐、人声,达到专业级音频生成品质。即日起,用户可在GitHub、HuggingFace下载模型,技术报告已公布。GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanVideo-FoleyHugging Face地址:https://huggingface.co/tencent/HunyuanVideo-Foley技术报告地址:https://arxiv.org/abs/2508.16930 01.突破音效生成的三大难题主体可泛化,声音更细腻
HunyuanVideo-Foley的提升聚焦解决现有的音频生成技术的泛化能力不足、语义响应不均衡、音质粗糙等痛点。下面是混元官方公布的一系列Demo。在泛化能力方面,该模型可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。例如输入文本描述:Splash of water and loud thud as person hits the surface.(水花飞溅,伴随着人砸向水面时沉闷的巨响。)输出视频:文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.(小狐狸的爪子踩过树叶与细枝,发出沙沙的摩擦声与清脆的碎裂声。)输出视频:文本描述:Creaking of old wooden windmill.(老旧木制风车发出的吱呀声。)输出视频:文本描述:Electric guitar power chords ringing out loudly and resonating.(电吉他强力和弦奏响,声音洪亮,余韵回荡。)输出视频:在多模态语义均衡响应方面,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效。例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为 “海浪声” 时,HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声,甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。输出视频:在专业级音频保真度方面,HunyuanVideo-Foley显著提升了音频生成质量和稳定性,极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。比如输入文字描述:A car drives over the wet road.(一辆汽车驶过潮湿的路面。)输出视频:可以看到,无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,均达到不错的效果。文字描述:Engine revving loudly and accelerating.(引擎轰然轰鸣,随即加速运转。)输出视频:HunyuanVideo-Foley生成的音频能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。 02.10万小时高质量数据集支持拿下多项行业SOTA