苹果深夜开源FastVLM,首词生成速度飙升85倍,浏览器就能跑实时视频字幕,LLaVA忌惮的对手来了?

智能情报所 2025-09-02 15:47

苹果公司在 Hugging Face 上发布了 FastVLM 和 MobileCLIP2 视觉语言模型,并提供了一个实时视频字幕的浏览器内演示(基于 WebGPU)。

传送门:https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e

核心亮点

  • 延迟显著降低。其首次生成 token 时间比 LLaVA-OneVision-0.5B 快了高达 85 倍,而其视觉编码器的尺寸却小了 3.4 倍,这也降低了内存占用和服务器成本。
  • 你可以直接在浏览器中运行该模型。
  • 视觉语言模型之所以常常出现处理停顿,是因为视觉编码器会产生大量的图像 token (image token),这迫使模型进行繁重的交叉注意力计算,从而延迟了第一个 token 的出现。
  • FastViTHD 是一款混合视觉编码器,它能将高分辨率输入压缩成更少的 token,这样语言模型就可以更快地开始解码。
  • 这直接大幅缩短了首次 token 生成时间,也就是从发送图像到看到第一个生成词语之间的等待时间。
  • 较大的 FastVLM 模型变体与 Qwen2-7B 模型结合使用时,其性能超越了 Cambrian-1-8B 模型,同时仅使用单个图像编码器,并将首词生成时间缩短了 7.9 倍。这使它们在速度与质量的权衡中处于更有利的地位。
  • 单一编码器的设计避免了多主干架构带来的开销,简化了批处理流程,并减少了框架集成工作。这些集成工作往往成为生产环境中隐藏的成本。
  • 产生更少的视觉 token 也缩小了键值缓存,因此,不仅第一个词的生成速度加快了,后续每一个解码步骤的负担也变得更轻,从而加速了长答案的生成。
  • 报告中展示的准确率与延迟关系图揭示了一个更优的帕累托前沿。这意味着,在相同的准确率下,它的速度要快得多;或者在相同的延迟水平下,它的准确率更高。
  • 更优的帕累托曲线,意味着在同等准确率下速度更快,在同等延迟下准确率更高。

性能对比

资讯配图

该图表将 5 个视觉语言模型测试的准确率与「首个 token 生成时间」进行了对比,后者衡量的是模型在显示第一个词之前等待的时间。FastViTHD 在保持更高准确率的同时,其首词生成时间远低于其他模型,这表明它既强大又迅速。

  • 在大约 55% 的准确率水平上,FastViTHD 的首词生成时间比 ConvNeXt-L 快约 3.2 倍。
  • 当图像分辨率从 256x256 增加到 1024x1024 时,FastViTHD 仍然能保持较低的延迟,而 ConvNeXt-L 的速度则明显变慢。
  • 像 ViT-L/14、SigLIP-SO400M 和 ConvNeXt-XXL 这样的单点基准模型,在速度与准确率的权衡上均劣于 FastViTHD。

苹果 FastVLM-7B 模型的许可条款

资讯配图
  • 您只能将该模型用于非商业性的科学研究和学术目的。
  • 您不得将其用于产品开发、商业开发,或用于任何商业产品或服务中。
  • 您可以复制、修改、分发和创建衍生作品,但所有衍生作品也必须仅限于研究用途。
  • 如果您违反条款,苹果公司可以撤销您的许可,届时您必须删除所有副本。
许可条款:https://github.com/apple/ml-fastvlm/blob/main/LICENSE_MODEL

一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 苹果
more
清华崔鹏团队开源LimiX:首个结构化数据通用大模型,性能超越SOTA专用模型
新机:FindX9系列续航大提升;荣耀悄悄发布千元新机;首款开源鸿蒙认证空调发布;魅族22公布1元预定权益
百度地图回应广告无法关闭,美团发布其首个开源大模型,纸质火车票将停用,苹果将8Plus列为复古产品,这就是今天的其他大新闻!
腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA
Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死
风格与主体终于完美融合!字节USO模型打破AI绘画‘二选一’困境,开源界新爆款诞生
更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
碾压SOTA!腾讯HunyuanVideo-Foley开源:让视频自动生成电影级音效,沉浸感拉满!
80%美国AI初创靠中国开源模型“吃饭”!a16z投资人震惊,全球开源榜前16名全被中国包揽
万物皆可“邪修”?科研党靠这个开源大模型“开挂”:能解化学题、能分析AFM图,有8B轻量版还能二次开发
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号