
新智元报道
新智元报道

【新智元导读】多模态大模型正试图从「看画面」进化到「懂世界」。但面对动辄数小时的真实业务长视频,所有大模型玩家都撞上了一堵极其现实的高墙:视频那么长,算力那么贵,帧,到底该怎么选?
多模态大模型正试图从「看画面」进化到「懂世界」。但面对动辄数小时的真实业务长视频,所有大模型玩家都撞上了一堵极其现实的高墙:视频那么长,算力那么贵,帧,到底该怎么选?
为了妥协算力,目前的行业惯例是「均匀采样」——让模型每隔几秒机械地「睁一次眼」。但这套看似公平的逻辑,在通信等复杂领域场景中却显得极为脆弱。因为业务事件的发生,从不按照节拍器来。

在专业的领域视频中,「看满全场」绝不等于「看懂细节」。关键事件在时间轴上极度「非均匀分布」,这导致均匀采样常常在两个极端里反复横跳:
「久坐不动」的无效冗余: 比如专业培训、技术课程,一页教案可能长达十几分钟。如果均匀采样,大量近乎雷同的静态画面不仅白白烧掉算力,还会让大模型直接「看花眼」。 「电光石火」的瞬间遗漏: 在现网割接、机房工勘等长录像中,99% 的时间可能是无意义的静默等待,但决定成败的核心动作往往转瞬即逝。均匀采样在这种场景下,无异于大海捞针,一漏致命。
这逼出了一个终极拷问:能不能让模型在不知道提问的前提下,自己判断「哪些画面最值得看」?

面对这一行业共性难题,华为GTS研发部AI数据团队给出了全新解法——LFS(Learnable Frame Selector,可学习帧选择器)。
LFS打破了「按时间间隔抽帧」的刻板印象。它的核心判断极度干脆:帧的价值,只取决于它是否包含关键动作与场景变化。
近日,该项「视频关键帧选择」研究成果已正式被人工智能顶级国际会议IJCAI 2026接收。

论文首页信息
• 论文标题:LFS: Learnable Frame Selector for Event-Aware and Temporally Diverse Video Captioning
• 论文链接:https://arxiv.org/abs/2601.14594
• 论文作者团队:华为 GTS研发部 AI数据团队

图 1:LFS 训练与推理整体框架

LFS并不笨重,它的选帧闭环仅靠三招,便实现了四两拨千斤的奇效。
LFS首先使用冻结的Long-CLIP提取帧特征,随后将其送入轻量级时间打分网络TSNet。TSNet通过一维时间CNN精准捕捉局部的动作转换,并结合全局门控调制,为每一帧生成专属的「重要性分数」。高分帧,即代表着画面正在发生关键动作或剧烈变化。
值得一提的是团队在此处极具巧思的算法设计:面对超长视频带来的性能压力,团队摒弃了调用庞大视觉模型逐帧「重度审视」的传统路线,而是另辟蹊径,直接对其文本空间的特征向量进行高速评估。
这种「降维打击」不仅让帧选择过程快如闪电,更将整个一维TSNet模型的参数量极限压缩至仅126K。这一设计在推理速度与物理显存占用上展现出了压倒性的优势,以极高的计算效率,完美实现了对海量视频帧的「沙里淘金」。

图 2:TSNet框架图。
如果只挑最高分的帧,容易导致画面全部扎堆在某一个激烈操作的时间段,LFS巧妙地将时间线划分为多个片段,在每个片段内提取高分帧。这保证了模型既抓住了重点,又没错过视频的完整生命周期。
LFS并没有人为设定「哪帧重要」的代理指标,而是直接让冻结Video-LLM 的Caption损失提供反馈。
训练时,梯度只回传到轻量的帧选择器TSNet,视频大模型本身始终保持冻结,从而将训练和工程接入成本降至最低。
为了减少Caption生成的偏见并稳定优化过程,作者采用了一种相对Caption损失,即通过从同一采样视频帧集上计算的自回归损失减去均匀采样的自回归损失:

其中
为计算的自回归损失:


数据证明,学会「挑重点」确实能带来更鲁棒的理解力。
在真实业务基准上,搭载LFS的Qwen3-VL-8B整体准确率跃升至75%;在极其考验关键动作捕捉的VDC Detailed子项中,准确率显著提升至58%。
更硬核的是,LFS 展现出了极强的泛化能力。它生成的高质量Caption能够直接反哺Zero-shot(零样本)视频问答,在MVBench、VideoMME等9个权威开源榜单上均取得稳定且全面的性能提升,除Dream-1K外均取得SOTA表现。

图3:LFS在9个benchmark上相对基线取得稳定提升。

图4:LFS在开源VDC benchmark上的效果提升。

长视频理解的难点,从来不只是「视频太长」,而是有效信息稀疏、关键瞬间易被淹没。LFS的价值,正是让模型在有限算力下优先看见真正改变业务语义的画面。
这种「高性能、高命中」的特性,正精准契合行业垂域面向前沿领域的庞大多模态数据消费需求:
知识沉淀更高效:将数小时的技术课程快速定位到核心讲解、关键操作与知识跳转点,让经验从视频里被提炼出来。 作业审计更可信:在网络割接、配置变更等高风险流程中自动捕捉关键帧,为规范复盘、风险定位和质量追溯提供证据链。 现场巡检更智能:精准识别机房工勘、设备巡检等长录像中的异常动作和状态变化,让一线现场数据沉淀为可检索、可分析的业务资产。
当AI应用从「能看见」走向「看得准、看得省、看得懂」,视频数据的价值也不再取决于堆了多少帧,而取决于能否在正确的时刻抓住正确的信息。LFS提供 的,正是一条面向行业长视频理解的高效技术路径。

