可灵击穿「多模态视频生成」,HuMo大一统“文本+图像+音频”,斩获多项SOTA!

AI产品汇 2025-09-15 07:50

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://phantom-video.github.io/HuMo/

代码链接-https://github.com/Phantom-video/HuMo

论文链接-https://arxiv.org/abs/2509.08519



为什么需要这个算法?--以人为中心的视频生成(HCVG)方法寻求从多模态输入(包括文本、图像和音频)合成人类视频。当前主要存在两个挑战:1)现有方法难以有效协调这些异构模式:具有成对三重条件的训练数据稀缺;2)难以将受试者保存和视听同步与多模式输入的子任务进行协作。
这个算法能做什么?--HuMo是可灵团队发布一个多模态HCVG框架,支持"文本+图像"、"文本+音频"、“文本+图像+音频”等灵活多模态输入组合。
这个算法效果如何?--大量实验结果表明:HuMo在HCVG任务上超越了最先进的方法,为协作多模态条件HCVG建立了一个统一的框架。


资讯配图


01-HuMo核心优势

    快手可灵团队提出HuMo,一个用于协同多模态控制的统一HCVG(以人为中心的视频生成)框架。作者构建了一个具有多样化和成对文本、参考图像和音频的高质量数据集。作者提出了一种具有任务特定策略的两阶段渐进式多模式训练范式。

    对于受试者保存任务,为了保持基础模型的快速跟踪和视觉生成能力,作者采用了微创图像注入策略。对于视听同步任务,除了通常采用的音频交叉关注层外,作者还提出了一种通过预测来引导模型将音频与面部区域关联的策略。

    为了联合学习多模态输入的可控制性,在先前获得的能力的基础上,作者逐步纳入了视听同步任务。在推理过程中,为了实现灵活和细粒度的多模态控制,作者设计了一种时间自适应的无分类器引导策略,该策略在去噪步骤中动态调整引导权重。

02-HuMo变现场景

02.01-根据“文本+图像”生成视频
    如上面的视频所示,该方法可以根据“输入的文本+参考图像”生成高质量、文本对齐和主题一致的视频。
02.02-根据“文本+语音”生成视频
    上面的视频展示了该方法可以根据"输入的文本+语音"生成文本对齐和音频同步的视频。
02.03-根据“文本+图像+语音”生成视频
    上面的视频展示了该方法可以根据“输入的文本+图像+语音”生成一些文本对齐、主题一致和音频同步的视频。
02.04-文本控制/编辑
    如上面的视频所示,给定相同的主题参考图像和不同的文本提示词,该方法可以很好的实现文本与图像协同可控性。

03-HuMo上手指南

资讯配图
03.01-搭建运行环境
# 步骤1-创建虚拟环境 conda create -n humo python=3.11conda activate humo
# 步骤2-安装三方依赖包 pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124pip install flash_attn==2.6.3pip install -r requirements.txtconda install -c conda-forge ffmpeg
03.02-运行样例Demo
# 步骤1-下载HF模型 huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./weights/Wan2.1-T2V-1.3Bhuggingface-cli download bytedance-research/HuMo --local-dir ./weights/HuMohuggingface-cli download openai/whisper-large-v3 --local-dir ./weights/whisper-large-v3huggingface-cli download huangjackson/Kim_Vocal_2 --local-dir ./weights/audio_separator
# 步骤2-文本+语音-->视频生成bash infer_ta.sh
# 步骤3-文本+语音+图像-->视频生成 bash infer_tia.sh

04-HuMo性能评估

04.01-主观效果评估
    上面的视频展示了该方法与多个SOTA的视频生成方法(Kling 1.6、MAGREF、HunyuanCustom、Phantom)在相同的输入“文本+图片”下的视频生成结果。通过观察与分析,我们可以发现:该方法生成的视频一致性更强一些,能够更好的遵循参考文字与图片内容。
04.02-客观指标评估
资讯配图
    上表展示了该方法与多个SOTA的视频生成方法在以文本和参考图像为输入的目标保持任务上面的定量比较结果。通过观察与分析,我们可以发现:17B参数量的该模型在“视频质量、文本跟随、目标一致性”等多个维度上面都获得了最高的得分,远优于其它方法。



关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
音频
more
一键实现PPT演讲自由!「解说音频+视频」同步生成,效果逼近真人
阿里再放王炸!图片+音频丝滑生成电影级视频,细腻互动+动态镜头全拿捏
Meta收购AI音频初创公司WaveForms​ AI
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
马恒达(Mahindra)选择赛轮思音频AI为其电动原生SUV打造车载语音交互功能
全球第一雷鸟×B&O强强联合!重塑AR眼镜音频体验新高度
【模拟 IC 高薪热招】射频 / 音频 / 电源 / 电机驱动等多岗位急聘
芯报丨音频AI芯片公司波洛斯完成数千万元A轮融资
新机:小米16音频有大升级;vivoX300、红米K90将在10月发布;Find X9Pro搭载7500mAh+80W快充
突破无限时长!StableAvatar革命性框架获音频本质建模能力,数字人视频生成迎重大突破
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号