打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
项目主页-https://phantom-video.github.io/HuMo/
代码链接-https://github.com/Phantom-video/HuMo
论文链接-https://arxiv.org/abs/2509.08519

01-HuMo核心优势
快手可灵团队提出HuMo,一个用于协同多模态控制的统一HCVG(以人为中心的视频生成)框架。作者构建了一个具有多样化和成对文本、参考图像和音频的高质量数据集。作者提出了一种具有任务特定策略的两阶段渐进式多模式训练范式。
对于受试者保存任务,为了保持基础模型的快速跟踪和视觉生成能力,作者采用了微创图像注入策略。对于视听同步任务,除了通常采用的音频交叉关注层外,作者还提出了一种通过预测来引导模型将音频与面部区域关联的策略。
为了联合学习多模态输入的可控制性,在先前获得的能力的基础上,作者逐步纳入了视听同步任务。在推理过程中,为了实现灵活和细粒度的多模态控制,作者设计了一种时间自适应的无分类器引导策略,该策略在去噪步骤中动态调整引导权重。
02-HuMo变现场景
03-HuMo上手指南

# 步骤1-创建虚拟环境
conda create -n humo python=3.11
conda activate humo
# 步骤2-安装三方依赖包
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install flash_attn==2.6.3
pip install -r requirements.txt
conda install -c conda-forge ffmpeg
# 步骤1-下载HF模型
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./weights/Wan2.1-T2V-1.3B
huggingface-cli download bytedance-research/HuMo --local-dir ./weights/HuMo
huggingface-cli download openai/whisper-large-v3 --local-dir ./weights/whisper-large-v3
huggingface-cli download huangjackson/Kim_Vocal_2 --local-dir ./weights/audio_separator
# 步骤2-文本+语音-->视频生成
bash infer_ta.sh
# 步骤3-文本+语音+图像-->视频生成
bash infer_tia.sh
04-HuMo性能评估

关注我,AI热点早知道,AI算法早精通,AI产品早上线!

禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!