苹果深夜开源FastVLM，首词生成速度飙升85倍，浏览器就能跑实时视频字幕，LLaVA忌惮的对手来了？

苹果公司在 Hugging Face 上发布了 FastVLM 和 MobileCLIP2 视觉语言模型，并提供了一个实时视频字幕的浏览器内演示（基于 WebGPU）。

传送门：https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e

核心亮点

延迟显著降低。其首次生成 token 时间比 LLaVA-OneVision-0.5B 快了高达 85 倍，而其视觉编码器的尺寸却小了 3.4 倍，这也降低了内存占用和服务器成本。
你可以直接在浏览器中运行该模型。
视觉语言模型之所以常常出现处理停顿，是因为视觉编码器会产生大量的图像 token (image token)，这迫使模型进行繁重的交叉注意力计算，从而延迟了第一个 token 的出现。
FastViTHD 是一款混合视觉编码器，它能将高分辨率输入压缩成更少的 token，这样语言模型就可以更快地开始解码。
这直接大幅缩短了首次 token 生成时间，也就是从发送图像到看到第一个生成词语之间的等待时间。
较大的 FastVLM 模型变体与 Qwen2-7B 模型结合使用时，其性能超越了 Cambrian-1-8B 模型，同时仅使用单个图像编码器，并将首词生成时间缩短了 7.9 倍。这使它们在速度与质量的权衡中处于更有利的地位。
单一编码器的设计避免了多主干架构带来的开销，简化了批处理流程，并减少了框架集成工作。这些集成工作往往成为生产环境中隐藏的成本。
产生更少的视觉 token 也缩小了键值缓存，因此，不仅第一个词的生成速度加快了，后续每一个解码步骤的负担也变得更轻，从而加速了长答案的生成。
报告中展示的准确率与延迟关系图揭示了一个更优的帕累托前沿。这意味着，在相同的准确率下，它的速度要快得多；或者在相同的延迟水平下，它的准确率更高。
更优的帕累托曲线，意味着在同等准确率下速度更快，在同等延迟下准确率更高。