全球首个“复合特效”视频模型 | 支持火焰+消融+爆炸等精准控制,真正实现「指哪变哪」!

AI产品汇 2025-08-13 08:09

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://amap-ml.github.io/Omni-Effects.github.io/

代码链接-https://github.com/AMAP-ML/Omni-Effects

论文链接-https://arxiv.org/pdf/2508.07981



为什么需要这个算法?--视觉效果(VFX)是现代电影制作中必不可少的视觉增强功能。目前的视频生成方法仅能处理单一特效。然而,将各种效果整合到一个统一的框架中面临着重大挑战:多视觉特效联合训练期间效果变化的干扰和空间不可控性。
这个算法能做什么?--Omni-Effects是阿里新提出的一个统一且空间可控的视频特效生成模型通过提示引导生成支持单个视觉特效和多种视觉特效视频生成。
这个算法效果如何?-- 大量实验结果表明:Omni-Effects实现了精确的空间控制和多样化的效果生成,使用户能够指定所需效果的类别和位置。


资讯配图


01-Omni-Effects核心优势

    阿里提出了Omni Effects,这是第一个能够生成即时引导效果和空间可控复合效果的统一框架。该框架的核心包括两个关键创新:

    1)基于专家混合(LoRA-MoE),它采用了一组专家LoRA,在统一的模型中整合了各种效果,同时有效地减轻了跨任务干扰。

    2)空间感知提示(SAP)将空间掩码信息整合到文本标记中,实现了精确的空间控制。

    此外,作者引入了集成在SAP中的独立信息流模块,隔离与单个效果相对应的控制信号,用来防止任何不必要的混合。

02-Omni-Effects落地场景

02.01-单一特效视频生成
    如上面的视频所示,Omni-Effects可以根据提示引导生成保真度和可靠性的单个视觉特效视频。
02.02-多特效视频生成
    如上面的视频所示,Omni-Effects可以根据提示引导生成保真度和可靠性的多视觉特效视频。
02.03-SPA导向单一特效视频生成
    如上面的视频所示,Omni-Effects可以基于SPA引导生成保真度和可靠性的单个视觉特效视频
02.04-SPA导向多特效视频生成
    如上面的视频所示,Omni Effects可以基于SPA(空间感知提示)引导生成保真度和可靠性的多视觉特效视频。

03-Omni-Effects上手指南

资讯配图
# 步骤1-搭建运行环境git clone https://github.com/AMAP-ML/Omni-Effects.git cd Omni-Effects  conda create -n OmniEffects python=3.10.14 pip install -r requirements.txt
# 步骤2-不同特效视频生成sh scripts/prompt_guided_VFX.sh # modify the prompt and input imagesh scripts/inference_omnieffects_singleVFX.shsh scripts/inference_omnieffects_multiVFX.sh


04-Omni-Effects性能评估

04.01-主观效果评估
资讯配图
    上图展示了该方法与多个SOTA的特性生成方法(LTX-Video、Wan2.1、CogVideoX、CogV+CN)在相同输入下(让左边的目标融化,让右边的目标漂浮起来)的特性生成效果。通过观察与分析,我们可以发现:该方法可以根据特定提示词来生成相应的特效。
04.02-客观指标评估
资讯配图
    上表展示了该方法与多个SOTA方法在单一特效视频生成任务上面的多项指标评估结果。通过观察与分析,我们可以发现:该方法在多项指标上都获得了最佳的得分,远高于其它基线方法。


关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号