多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

AI科技评论 2025-08-27 17:42

面壁智能正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备高刷视频理解能力的多模态模型看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

模型刚刚开源,就收获了 Hugging Face 联合创始人Thomas Wolf 等一众大 V 的点赞转发。

资讯配图

💡 MiniCPM-V 4.5 亮一览 

👍 首个「高刷视频理解」多模态模型,兼顾性能与效率:高刷视频理解同级 SOTA 且超过 Qwen2.5-VL 72B 越级领先;同等视觉 token 开销下, MiniCPM-V 4.5 可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍;

🌟 最强多模态 SOTA 模型:图片理解、长视频理解、OCR、文档解析同级 SOTA,且超过 Qwen2.5-VL 72B 达到 越级领先

🧑‍💻 端侧友好:提供 SOTA 级多模态表现的同时,带来最佳的推理效率,显存占用、平均推理时间等领先优势显著;

🤔 支持长思考、短思考可控混合推理,性能好、速度快

 ➤  模型链接 

🔗 

Github: 


https://github.com/OpenBMB/MiniCPM-o

🔗 

Hugging Face:  


https://huggingface.co/openbmb/MiniCPM-V-4_5


🔗 

ModelScope: 

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5


  01 

首个高刷视频理解

兼顾性能与效率

看得更清更准,才能减少视觉信息的误差,提升视觉理解与推理准确性。更高刷新率,是画面流畅度的关键。

此前,主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取 1 fps 抽帧,即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉 token 量开销下,最大可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍。

MiniCPM-V 4.5 通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,瞬间捕捉,洞见细节!面对一闪而过的画面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更准、更细。

在 MotionBench、FavorBench 两项体现高刷视频理解能力的榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先水平

资讯配图

  02 

最强端侧多模态

图片、视频理解全 SOTA

以小博大,一直是面壁小钢炮 MiniCPM 的模型特色。这一次,MiniCPM-V 4.5 凭借 8B 参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

资讯配图

图片理解性能上,MiniCPM-V 4.5 在 OpenCompass 测评中,领先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型,甚至超过 Qwen2.5-VL 72B,实现越级领先

资讯配图

视频理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜单中,均达到同级最佳水平。

资讯配图

在复杂文档识别任务中,MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现。

资讯配图

此外,MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

  03 

极致推理性价比

端侧应用优选

在端侧 AI 应用持续升温的当下,模型能力再强,如果无法在端侧设备上稳定、流畅运行,一切都是空谈。

面壁小钢炮 MiniCPM 不断提升模型的「能力密度」,也一直致力于追求大模型的极致「能效比」,通过更低的显存占用、更快的响应速度,确保在提供 SOTA 级多模态表现的同时,也实现最佳的推理效率和最低的推理开销。

在视频理解榜单 VideoMME、以及单图OpenCompass测试中,MiniCPM-V 4.5 达到同级 SOTA 水平,显存占用、平均推理时间等方面领先优势显著

其中,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10 。

资讯配图

  04 

技术解析

MiniCPM-V 4.5 作为多模态模型的新旗舰,之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等 SOTA ,主要得益于在模型结构、训练范式等领域的创新。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
破解人机协作密码:工作技能拆成两层,AI执行人类决策成功率狂飙 | ICML 2025
上班效率神器,下班哄娃法宝,本周榜单生活效率+创意力双开挂!——模力工场·AGICamp 第 009 周 AI 应用榜单发布
ICML 2025 | AI虚拟细胞落地重大进展:清华AIR,水木分子等首创并开源多尺度空间转录组学基础大模型SToFM
会议通知 | ​第十八届IEEE国际固态和集成电路技术会议(ICSICT 2026)征文通知
CoolSiC™ 2000V SiC 沟槽栅MOSFET定义新能源应用中功率密度增强的新基准
107页精译麦肯锡2025技术趋势报告:Agentic AI放首位,13大趋势揭晓未来人机共生,附下载
DJI Mic 3首发评测:机身mini体验旗舰,无线麦克风新标杆?
印度企业 boAt 与 HrdWyr 联合推出本土设计芯片,获 Tata Electronics 支持
英飞凌CoolSiC™ MOSFET G2最新产品荣获2025年度半导体市场创新表现奖
全面升级,小巧而强大的DJI Mic 3| 区势·数码
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号