苹果公司在 Hugging Face 上发布了 FastVLM
和 MobileCLIP2
视觉语言模型,并提供了一个实时视频字幕的浏览器内演示(基于 WebGPU)。
传送门:https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e
核心亮点
延迟显著降低。其首次生成 token 时间比 LLaVA-OneVision-0.5B
快了高达85
倍,而其视觉编码器的尺寸却小了3.4
倍,这也降低了内存占用和服务器成本。你可以直接在浏览器中运行该模型。 视觉语言模型之所以常常出现处理停顿,是因为视觉编码器会产生大量的图像 token (image token),这迫使模型进行繁重的交叉注意力计算,从而延迟了第一个 token 的出现。 FastViTHD
是一款混合视觉编码器,它能将高分辨率输入压缩成更少的 token,这样语言模型就可以更快地开始解码。这直接大幅缩短了首次 token 生成时间,也就是从发送图像到看到第一个生成词语之间的等待时间。 较大的 FastVLM 模型变体与 Qwen2-7B
模型结合使用时,其性能超越了Cambrian-1-8B
模型,同时仅使用单个图像编码器,并将首词生成时间缩短了7.9
倍。这使它们在速度与质量的权衡中处于更有利的地位。单一编码器的设计避免了多主干架构带来的开销,简化了批处理流程,并减少了框架集成工作。这些集成工作往往成为生产环境中隐藏的成本。 产生更少的视觉 token 也缩小了键值缓存,因此,不仅第一个词的生成速度加快了,后续每一个解码步骤的负担也变得更轻,从而加速了长答案的生成。 报告中展示的准确率与延迟关系图揭示了一个更优的帕累托前沿。这意味着,在相同的准确率下,它的速度要快得多;或者在相同的延迟水平下,它的准确率更高。 更优的帕累托曲线,意味着在同等准确率下速度更快,在同等延迟下准确率更高。
性能对比
该图表将 5 个视觉语言模型测试的准确率与「首个 token 生成时间」进行了对比,后者衡量的是模型在显示第一个词之前等待的时间。FastViTHD 在保持更高准确率的同时,其首词生成时间远低于其他模型,这表明它既强大又迅速。
在大约 55% 的准确率水平上,FastViTHD 的首词生成时间比 ConvNeXt-L
快约 3.2 倍。当图像分辨率从 256x256 增加到 1024x1024 时,FastViTHD 仍然能保持较低的延迟,而 ConvNeXt-L 的速度则明显变慢。 像 ViT-L/14、SigLIP-SO400M 和 ConvNeXt-XXL 这样的单点基准模型,在速度与准确率的权衡上均劣于 FastViTHD。
苹果 FastVLM-7B 模型的许可条款

您只能将该模型用于非商业性的科学研究和学术目的。 您不得将其用于产品开发、商业开发,或用于任何商业产品或服务中。 您可以复制、修改、分发和创建衍生作品,但所有衍生作品也必须仅限于研究用途。 如果您违反条款,苹果公司可以撤销您的许可,届时您必须删除所有副本。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!