ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!

机智流 2026-07-01 20:00

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图1


> 本文来自社区投稿

摘要

设想一条商品 AI 口播视频:主播得是指定的那张脸,手里的商品不能变形,嘴型要跟着声音走,表情和身体节奏也要自然,动作还得严格服从给定的 pose,最后整段画面还要和文本描述对得上。把这六件事拆开看,业界早就各有专精;可一旦要它们在同一段视频里同时成立,绝大多数方案就开始顾此失彼。

为了把“同时成立”做成一件可工程化的事,来自香港中文大学、字节等的研究团队提出了 OmniShow

该工作将 Human-Object Interaction Video Generation 视为一个需要统一建模的系统问题,通过把人物、物体、音频与动作等多模态条件收进同一框架,探索多模态可控视频生成走向工业级生产的可能性。

本文我们不按"问题—方法—结果"的老套路展开,而是沿着"一道任务、三股技术合力、一把统一标尺、一组硬核数字"的脉络,把整篇论文完整讲清楚。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图2

论文标题:OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

收录会议:ICML 2026

项目主页:https://correr-zhou.github.io/OmniShow

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图3
OmniShow 用一套框架接住多类条件,并向下游延展出多种生成玩法

1. 任务设定:把"多条件视频"当成一道协同题

OmniShow 面向的任务叫 Human-Object Interaction Video Generation。它要求在同一段人物与物体自然交互的视频里,让四类条件并行生效:text prompt 锚定全局语义与场景,reference images 固定人物身份与物体外观,audio 驱动嘴型、表情与身体节奏,pose 提供逐帧的精确动作控制。这比 text-to-video 更贴近真实生产——不是凭一句话自由发挥,而是要把多路外部约束在时序、空间、语义三个层面拧到一致。

为什么难?因为现有路线彼此割裂:R2V 守得住 reference appearance,却对声音几乎无反应;A2V 能被音频驱动,却往往只认首帧、难以同时指定人与物;pose-guided 方法擅长控动作,却在复杂交互下保不住身份与音画同步;部分 HOI 方法还要额外喂 mask、trajectory、depth、bounding box,门槛陡增。把这些子系统级联起来既臃肿,又容易在交界处崩坏。

OmniShow 的取向很明确:不做拼装,而让一个 end-to-end 模型在同一框架里学会协同。整套体系搭建在 Waver 1.0(一个 12B 的 MMDiT 视频生成模型)之上,核心原则是不破坏 base model 的生成先验,把每种条件放到它最合适的位置。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图4
OmniShow 完整 Pipeline:视觉注入、音频对齐、分阶段训练三股力量交织

2. 技术合力之一:视觉条件,沿原生接口"贴着长"

reference images 与 pose 同属视觉信号,但角色不同——前者是外观锚点,后者是逐帧运动约束。

OmniShow 复用 Waver 1.0 原生的 channel-concat 机制把两者统一接入:经 VAE 编码后,在 temporal 维度新增 pseudo-frame tokens 专门承载 reference,pose 则与 noisy video tokens 对齐。这样一来,模型看到的输入形态与原生 I2V 几乎无异,task adaptation gap 被压到极小。在此基础上,再加一道 Reference Reconstruction Loss:pseudo-frame tokens 由同 timestep 加噪的 reference tokens 初始化,并被要求重建其语义细节,"保真"由此从被动约束升级为模型主动追逐的显式目标。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图5
复用原生 channel-concat 接口,让 reference 与 pose 顺势接入而非另起炉灶

3. 技术合力之二:音频条件,用门控做局部对齐

声音是连续且带节奏的模态,硬塞进 channel 必然丢同步。

OmniShow 为它单独配了一套 Gated Local-Context Attention:先用 Wav2Vec 2.0 融合多层特征,再以 sliding window 对齐到视频 fps,masked attention 约束每个 latent frame 只 attend 对应的局部 audio tokens,建立起严格的 frame-wise 音画对应。配套的 Adaptive Gating 把 gating vector 初始化为 near-zero,让音频影响稳健生长,不至于一上来就扰乱画面。

更巧妙的是,gating vector 顺手成了一根"探针":通过观察 gate norm,团队发现音频影响集中在 dual-stream blocks,于是只在这些层注入。代价极低——模型仅增约 2.5%,合计 12.3B;作为对照,HuMo 为音频付出了 +21.4%、体量达 17B。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图6
Adaptive Gating 显示音频在各模块的影响强弱,反向指导注入位置

4. 技术合力之三:训练范式,先成"专才"再融"通才"

完整 HOIVG 样本极其稀缺——一条样本要同时满足 text、reference、audio、pose 与目标视频的质量,几乎可遇不可求。OmniShow 的应对是不等理想数据出现,而是把碎片数据盘活:从大规模 human-centric 视频池出发,经 shot segmentation 分镜,再按分辨率、美学、运动强度、OCR 分数等维度逐层过滤,最终整理出 R2V、A2V、RA2V 与高质量 RAP2V 四类异构子集,为分阶段训练备好分层素材。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图7
从分镜切分到多维过滤,沉淀出 R2V/A2V/RA2V/RAP2V 等异构子集

训练的灵魂是 Decoupled-Then-Joint Training。

第一段 decoupled:把 R2V 与 A2V 当成两门手艺分别训出两个 specialists——训 R2V 时丢掉音频模块、专注 reference 保真;训 A2V 时把首帧作为额外条件,把声音到嘴型、表情、节奏的细粒度时间对齐练扎实。

第二段 joint,关键动作是 weight interpolation:音频模块直接从 A2V 专家继承,其余权重按 A2V / R2V = 0.6 / 0.4 线性插值融合。这个比例并非随手定——音频同步依赖细粒度时间对齐,对权重扰动远比依赖全局外观的视觉身份敏感,因此要给音频专家更高的权重去守护它。

最令人意外的,是合并那一刻的副产品:在没有任何 RA2V 专门训练之前,融合后的模型就已能同时响应 reference 与 audio——也就是说,RA2V 能力是被 weight merging "涌现"出来的。可控性这类看似非专门数据不可习得的能力,竟可经由权重融合自发出现,这为"统一框架成立"提供了直接底气。随后,融合模型先在完整 RA2V 数据上继续训练,再到高质量子集上微调;而 pose 被刻意留到最后才"上桌"——它是最强势的监督信号,过早引入会让模型过度依赖、压制对其他模态的响应,放到收尾既能享受精确动作控制又不喧宾夺主。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图8
两个专家合并后,未经 RA2V 训练即涌现 joint reference-audio 生成能力

5. 统一标尺:HOIVG-Bench 让"协同得好不好"可量化

要证明三股力量真的彼此成全而非互相拖累,就得有一把统一的尺子。团队为此构建了 HOIVG-Bench:135 个精选样本,每个都配齐 detailed caption、人物与物体 reference、语义对齐的 audio 与 coherent pose,从 Text Alignment、Reference Consistency、Pose Accuracy、Audio-Visual Synchronization、Video Quality 五个维度打分,专门照出"pose 准但身份漂、嘴型对但商品变形"这类偏科。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图9
HOIVG-Bench 的统计分布与多条件样例

6. 硬核数字:三种设置全面验证

先看定性。换着花样组合条件,OmniShow 都能稳住形象、动作与音画同步,这正是"协同"而非"妥协"的直观体现。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图10
不同条件组合下的定性对比,形象、动作与音画同步均稳定

定量结果分三种设置看。

R2V 设置下,NexusScore 0.389 超过 VACE(0.368)与 Phantom-14B(0.366)居首,FaceSim 0.874 紧追体量更大的 Phantom-14B(0.876),并在 AES 0.468、VQ 11.12、MQ 5.885 三项拿下第一。

RA2V 设置下,Sync-C 8.612、Sync-D 7.608 双双领先 HuMo-17B 的 8.013/8.316,FaceSim 0.810、NexusScore 0.369、AES 0.465、VQ 10.86、MQ 5.554 全面占优——加入音频后,音画同步、人物与商品一致性、画质三者同步抬升。

RP2V 设置下,AKD 降至 0.174、PCK 升到 0.460,动作控制精度明显优于 VACE(0.206/0.336),NexusScore 0.418、VQ 10.28 同样领先。而这一切都出自一个仅 12.3B 的模型,音频模块只多花约 **2.5%**——这正是"系统协同"换来的性价比。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图11
HOIVG-Bench 主实验结果,覆盖 R2V/RA2V/RP2V 多种条件设置

被纳入统一框架,并没有削弱单项专才。作为整套训练范式基石的 A2V 专家本身就很能打:在专评音频驱动的 EMTD 基准上,OmniShow-A2V 取得 Sync-C 6.49、AES 1.51(全场最高),IQA 2.26 仅次于 Hallo3——"先把专才练强、再合进系统"这条路径,并未牺牲音频驱动本身的硬实力。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图12
OmniShow-A2V 在 EMTD 基准上的结果,验证 audio-driven 能力依旧扎实

7. 落地价值:一套系统,长出一片应用版图

因为四类条件被收进同一框架且互不打架,它们便能自由组合:人物 reference 加 audio 可以实现 audio-driven avatar;人物 reference 加 pose 控制,结合物体 reference 的替换可以做 object swapping;重新拼装人、物、声、动作则得到 video remixing,分别对应电商带货、短视频口播与互动娱乐等场景。

ICML 2026 | 一个模型同时调度人、物、声、动作,多模态可控视频生成迈进工业级!图13
统一框架延展出 audio-driven avatars、object swapping、video remixing 等应用

回看全篇,OmniShow 真正推动的,不只是某个模型的效果上限,而是一种把多模态可控视频生成"做成系统工程"的方法论:条件注入不只追求能接入、训练策略不只追求能收敛、评测不只看单项分数,而要同时回答"这些能力放在一起之后,是否还能保持一致、可控、自然、可复用"。当人、物、声、动作的同时调度从加分项变成内容生产的刚需,稀缺的从来不是又一个单点模型,而是一台能把它们同时接住、并让其协同运转的机器——OmniShow 交出的,正是这样一份完整的系统答卷。


-- 完 --


加入机智流 Pro,1 天一块钱,AI 能力指数级增长时代,不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。


机智流推荐阅读

1. 

2. 

3. 

4. 

关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • lc|LangChain 技术交流群
  • code | AI Coding 交流群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 推理 | AI 推理框架交流群
  • Agent | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 工业
more
7月,Micro LED又火爆“出圈”了!
从ROS 2到micro-ROS:MCU也能轻松接入机器人生态!
抢完诺奖得主又挖伯克利CS掌门,Anthropic两周揽四将
ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES:为强化学习合成更有价值的样本
玻璃基破晓&光互连启航|苏州MLED生态大会定调Micro LED新未来
AI浪潮下的感官革命:Micro LED的转型与布局分析
Anthropic承认了!Claude Code木马门被抓包,明天回滚
跨会话不再「失忆」:openJiuwen社区开源 AutoGenetic Memory,让Agent记忆自主生长
全产业链“掌门人”直面量产问题,玻璃基Micro LED与CPO“来势汹汹”
直通ICML 2026!上海AI实验室携百余顶尖岗位,双场人才交流会报名开启
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号