浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M

机器之心 2025-12-17 07:59

亮点总结

 

  1. 作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M,共包含 3M 样本对,分为空间对齐和非空间对齐 2 大类别共 8 小类别。

  2. 作者提出了稳定的高质量、多类别的指令跟随视频编辑数据构造管线,确保编辑质量的同时具有多样性,促进社区研究。

  3. 作者提出了一个高效且有效的指令跟随视频编辑模型 OpenVE-Edit,仅 5B 的参数量实现了 SoTA 并超过了现有开源 14B 模型效果。

  4. 作者提出了一个通用的、多类别且充满挑战的指令跟随视频编辑评测集,它从 3 个关键维度评估模型在各个类别上的性能并与人类评价高度对齐。

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图2
 

 

1. 研究动机

 

现有指令遵循的视频编辑数据集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在数据集规模小、编辑类型少、编辑指令短和编辑质量差四个问题。表 1 展示了现有开源视频编辑数据集的定量分析,其中尽管 VIVID 有 10M 的数据规模,但是其只提供了掩码视频而没有编辑后视频导致无法直接训练。而 InsViE-1M、Senorita-2M、Ditto-1M 三个数据集只有 1 或 2M 的样本数,并且编辑种类较少。

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图3

表 1: 与当前指令跟随视频编辑数据集的比较。Cat./Avg. Ins. Lgth 分别指类别 / 平均指令长度

 

图 2 (a) 展示了编辑指令长度的分布,InsViE-1M、Senorita-2M 的平均编辑指令的单词长度较少平均只有 4 个单词,无法很好的提供准确的编辑指令信息影响编辑效果。为了判断指令跟随的视频编辑数据集的质量,作者将原始视频、编辑后视频和编辑指令输入至 Gemini 2.5 Pro 中并在 Consistency & Detail Fidelity, and Visual Quality & Stability 三个层面进行 1 到 5 打分,其中后两者的得分不应该超过前者。将每个数据集中的每个类别随机挑选 50 个编辑对进行评测,最终得分分布如图 2 (b) 所示。

 

InsViE-1M、Senorita-2M 数据集尽管在 5 分也有较高的分布,但是其为 1 分的 bad case 占比也很高,导致数据集的平均质量得分偏低。Ditto 数据集也有着不错的质量但是其主要编辑类型为风格的变换,编辑种类还不够丰富。综上所述,目前还缺少大规模、高质量、多种类的指令跟随的视频编辑数据集。

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图4

图 2: OpenVE-3M 与当前开源视频编辑数据集的视频统计数据比较

 

因此,作者提出了一个大规模、高质量、多类别的指令跟随视频编辑数据集 OpenVE-3M。其共包含 3M 个样本,分为空间对齐和非空间对齐两类,其中空间对齐指的是编辑后视频和原始视频在空间和时序上具有一致的运动包括 Global Style, Background Change, Local Change, Local Remove, Local Add, and Subtitles Edit 共 6 类,非空间对齐指的是编辑后视频和原始视频在空间和时序上具有一致的主体但不一致的运动包括 Camera Multi-Shot Edit and Creative Edit 共 2 类。所有类别的可视化例子如图 1 所示。此外 OpenVE-3M 还具有最长的平均指令长度 40.6,分布均匀的视频帧数以及最高的视频编辑质量总平均分 3.86。

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图5

图 1: 在同一个视频中演示来自所提出的 OpenVE-3M 数据集的八个不同类别

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图6

图 3: OpenVE-3M 的类别和帧计数统计

 

2. OpenVE-3M 数据集构建

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图7

图 4: 数据管道概述。第一阶段:旨在构建视频语料库并执行各种预处理步骤,为第二阶段做准备。第二阶段:重点在于利用一系列模型和工具,为每个类别生成编辑对。第三阶段:涉及对第二阶段生成的所有编辑对进行细粒度过滤,以仅保留高质量样本。

 

a. 第一阶段:视频预处理

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图8

图 5: Stage1 视频数据预处理管道

 

b. 第二阶段:基于分类法的视频编辑和指令生成 

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图9

图 6: Stage2 视频编辑数据构建流程的详细工作流程: Global Style, Local Change, Background Change, and Local Add

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图10

图 7: Stage2 视频编辑数据构建流程的详细工作流程: Local Remove, Subtitles Edit, Camera Multi-shot Edit, and Creative Edit

 

c. 第三阶段:高质量视频编辑对过滤

 

对于所有类别的合成数据对作者针对每个类别精细设计了数据过滤管道。首先是每个类别视频编辑提示词的精细构建,共包含 3 大主要评测指标:指令遵循、Consistency & Detail Fidelity 和 Visual Quality & Stability,每个指标评分 1-5 分进行打分。

 

其中关键的是以指令遵循指标为得分上限,即后面两个指标的得分不能超过指令遵循指标。因为有许多视频编辑数据尽管视频质量高但完全没有被编辑,因此作者希望指令遵循是首要评判标准。随后作者将编辑指令、编辑前视频和编辑后视频输入到 VLMs 中进行打分。在此,作者人工挑选并打分了 300 个视频编辑对并与 3 个 VLMs 模型打分结果进行对比。将视频编辑对平均得分超过 3 分定义为正样本、小于等于 3 分为负样本。最终计算 Qwen3-VL-A3B 模型准确率为 61%,Intern3.5-VL-38B 模型准确率为 66%,Seed1.6-VL 准确率为 70%,Gemini2.5-Pro 准确率为 69%。但是受限于 Seed1.6-VL 和 Gemini2.5-Pro 的 API TPM 的限制,作者最终选用 Intern3.5-VL-38B 模型用于打分并过滤所有得分大于 3 分的视频编辑对。

 

3. OpenVE-Edit 指令跟随视频编辑模型

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图11

图 8: OpenVE-Edit 的整体架构。(a) OpenVE-Edit 的架构。(b) MoE-Connector 模块的详细结构。

 

OpenVE-Edit 创新点:

 

 

4. OpenVE-Bench 指令跟随视频编辑评测

 

现在还没有一个通用的并且与人类评价高度对齐的指令跟随的视频编辑评测。因此,作者提出了 OpenVE-Bench,一个人工精心挑选包含 8 类别共 431 条编辑对的评测集,并且对于每个类别均精心设计了 Instruction Consistency & Detail Fidelity, and Visual Quality & Stability 三个关键评测 Prompt,最终将编辑指令、原始视频、编辑后视频共同输入给 VLM 得到编辑分数。

 

5. 实验结果

 

a. 定量结果

 

作者对比了目前所有的视频编辑开源模型 VACE、OmniVideo、InsViE、ICVE、Lucy-Edit、DITTO 和闭源模型 Runway Aleph,在使用 80G 显存 GPU 复现开源模型过程中。OmniVideo 仅能生成 640*352 分辨率,17 帧的视频,其他分辨率和帧数都会导致视频异常。ICVE 模型仅能在 480*768 分辨率生成最多 41 帧的视频,更多帧数的生成会导致显存爆炸,因此使用 384*240 以保证所有帧被编辑。其他的模型都按照其训练的分辨率和输入视频的帧数对应进行生成。另外由于 Runway Aleph 费用的限制,作者在每类评测集上仅挑选 30 个样本进行测试与评分。

 

表 2 和 3 展示了现在所有指令跟随视频编辑模型在 OpenVE-Bench 上的评测结果。闭源的 Runway Aleph 模型在 Seed1.6VL 和 Gemini 2.5 Pro 两个评测模型上均取得了最出色的效果并且远超现有开源模型。开源的 VACE、OmniVideo 和 InsViE 由于模型参数的限制或者数据集的限制结果较差。Lucy-Edit 在 5B 的参数量下取得了比较平均的效果。ICVE 在 13B 参数量下取得了不错的效果,但高分辨率的编辑仅支持更少的帧数。DITTO 由于数据集主要为 global style 类型,因此其在这一指标上得分较高。作者的 OpenVE-Edit 仅 5B 的参数量取得了 2.41 的总指标,实现较小的参数量下超越了现有所有开源模型效果。

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图12

 

b. 定性结果

 

图 9 展示了作者的方法和现有开源 SOTA 方法的定性对比。选取了当前开源模型里最好的三个模型做对比。在左边的 Background Change 的例子里,Lucy-Edit 尽管实现了背景的变换,但是小狗没有保持与原视频一致。ICVE 错误的擦除了女人并且男人的长相也发生了变化。Ditto 错把墙上的画当作前景并且小狗的颜色变深。作者的方法能够在前景所有主体保持一致性的同时背景按照编辑指令改变。右边 Local Change 的例子中,Lucy-Edit 错误的将三个人的衣服全部编辑。ICVE 错误的对左边两个人编辑,并且人也发生了变化。Ditto 不仅编辑错了对象还错误地将背景改变了。作者的方法只按照编辑指令改变了对应女人的衣服并且保持其他男人和背景的一致性。

 

浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M图13

图 9: 与当前 SoTA 方法的定性比较结果,并举例说明背景变化(左)和局部变化(右)。

 

© THE END 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 字节
more
昨夜今晨全球大公司动态 | 字节跳动仍受资本追捧估值升至4800亿美元;黄仁勋称所有的大规模支出都是合理的
因“多次泄密”,字节跳动开除一大模型团队研究员
浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M
张一鸣震怒,字节大模型研究员多次泄密被开除
字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
字节跳动VP复盘12年发展!剧透明年PICO新品、全自研MR芯片
否认自研手机,字节想要的是华为小米们的“灵魂”?
月薪涨150被骂抠门?宁德时代宣布涨薪,回应来了;小米汽车将开放「现车选购」,预计年底前可提;字节联手中兴打造首款豆包助手手机
字节“豆包手机”刚开卖,吉利系进展也曝光了:首月速成200人团队,挖遍华为小米荣耀
字节又放大招!最强语音输入法来了,实测遥遥领先
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号