文心友约｜ERNIE-4.5-VL多模态大模型，等你“大显身手”！

百度AI 2025-08-27 18:00

资讯配图

当 AI 技术从实验室走向千行百业，多模态交互正成为打破数字壁垒的关键。6月30日，百度文心4.5系列模型重磅开源，其中 ERNIE-4.5-VL 视觉语言模型（ERNIE-4.5-VL-28B-A3B；ERNIE-4.5-VL-424B-A47B）以卓越的图文视频理解能力，支持100 +语言交互，为智能应用开辟全新可能。先来了解下 ERNIE-4.5-VL 视觉语言模型的技术亮点。

01

小参数，大能量：效率与性能的双重突破

实验结果表明，轻量级视觉语言模型 ERNIE-4.5-28B-A3B 的激活参数显著减少，但与 Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 相比，其在大多数基准测试中仍具有竞争力，甚至表现更优。模型支持128K 上下文长度，结合「思考模式」与「非思考模式」双选项，既能快速响应基础任务，又能深度破解复杂问题，灵活适配从日常场景到专业领域的全场景需求。

非思考模式下，ERNIE-4.5-VL 模型具备强大的视觉感知能力与知识准确性。ERNIE-4.5-VL-424B-A47B 在 CountBench、CV-Bench 和 RealWorldQA 等基准测试中取得高分；ERNIE-4.5-VL 展现出对中国视觉知识的深刻理解，其在 CCBench 上的出色表现便是证明。

思考模式下，ERNIE-4.5-VL-424B-A47B 在 MathVista、MMMU 和 VisualPuzzle 等基准测试中超越 OpenAI-o1。

▎详情查看技术报告：

https://ernie-blog-dev.now.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

02

全场景赋能：跨模态智能触手可及

ERNIE-4.5-VL 的跨模态能力覆盖以下核心任务场景：

文档处理「一键通」：拍照/扫描的文档理解、医疗报告结构化信息抽取、金融/货运等单据智能处理等场景，彻底告别繁琐录入。
视频管理「智能化」：智能视频剪辑与素材管理、自动化高光集锦生成、智能安防与事后追溯等场景，让视频从「存储」变为「会说话的资产」；
文化传承「活起来」：博物馆学术研究、博物馆文物导览、古籍数字化等场景，让千年文明触手可及；
学习解题「超轻松」：从 K12 拍照解题、公务员图形题解析，到网络梗图的趣味解读，让学习与生活更高效；
生活服务「更懂你」：现实/虚拟人物科普、旅游景点导览、动植物专业科普等，让 AI 成为贴心生活助手；
创意生成「个性化」：营养食物均衡分析、穿着搭配建议生成等，基于图像的创意输出，让生活更有品质。

资讯配图

03

实例印证：智能看得见、用得着

▎OCR 解析与文档理解

支持多语言文档解析，提取关键信息并结构化输出；
高精度识别复杂格式文本，关联上下文语义。

资讯配图

资讯配图

▎视频内容时序定位

支持视频内容理解，视频中的文字提取、翻译；
根据视频内容创作脚本、字幕；
视频特定事件时间点精准定位。

资讯配图

▎中国文化理解

精准识别小篆、隶书、楷书、行书等各类传统字体；
专业识别文物类型、年代、工艺，解读其历史文化与艺术价值；
细致识别图像中的传统建筑、服饰等中国文化元素，挖掘象征意义。

资讯配图

▎学科推理

文科图文题精解，融合历史地图、社会调查图表等图像信息与文史知识剖析问题。
理科图示题巧析，结合几何图形、实验装置图等图示和数理原理推导解题思路。
艺术图像题妙答，依据绘画作品、音乐乐谱等艺术图像和相关理论分析解答。

资讯配图

资讯配图

资讯配图

（左右滑动查看更多

）

▎视觉推理

归纳推理：识别图形序列规律，准确预测缺失项
空间感知：从二维图像中推断物体的相对位置、遮挡关系及可能的三维结构
复杂推理：基于单张或多张图像中的显性与隐性线索，经过多轮中间推断得到最终答案

资讯配图

资讯配图

资讯配图

（左右滑动查看更多

）

▎常识推理

精准识别文物、名人，实现准确的的常识链推理。
根据景观轮廓、建筑风格或自然特征快速识别地标，并推断所在城市或国家。
通过外形、颜色、纹理等特征精准辨认动植物种类。

资讯配图

▎图像条件创意生成

根据输入图像，生成与视觉内容语义相关的创意内容。

资讯配图

04

有奖征集

@文心友友们

多模态大模型的真正价值，在于对真实场景的适配能力。不妨结合你的工作与生活场景，用实际数据测试 ERNIE-4.5-VL 的硬核实力：

职场人：用日常经手的英文合同、带复杂图表的财务报表拍照上传，观察它能否精准提取关键信息并生成结构化数据，对比人工处理的效率差；
教育工作者：选取学生常出错的数学应用题、公务员考试图形推理真题，测试它的解题步骤是否清晰，能否举一反三给出同类题型；
文化爱好者：拍摄博物馆参观时的文物照片（如青铜器铭文、古画题跋），验证它对文字的识别精度和背后历史文化解读的专业性；
内容创作者：用自己拍摄的 vlog 片段或赛事录像，指令其自动生成字幕、剪辑高光片段，看看是否符合你的创作预期。

▎征集内容：

无论你是企业主体/职场人/自由职业者/创业团队，欢迎分享你使用 ERNIE-4.5-VL 实现的应用成果，不限于图/视频/链接/demo 等形式，我们也欢迎有真实业务场景的企业一起共建共创产业应用。

▎提交地址：

https://www.wjx.top/vm/htiOklF.aspx#

▎奖品清单：

筛选30位优质应用成果赠送以下奖品。

资讯配图

资讯配图

资讯配图

▎相关链接

■ 文心4.5系列模型下载

Hugging Face：

https://huggingface.co/baidu

飞桨星河社区：

https://aistudio.baidu.com/modelsoverview?sortBy=weight&q=ernie

GitHub：

https://github.com/PaddlePaddle/ERNIE

魔搭社区：

https://modelscope.cn/models/dengcao/ERNIE-4.5-VL-28B-A3B-Paddle

■ 文心4.5系列模型训练部署

ERNIEKit：

https://github.com/PaddlePaddle/ERNIE/blob/develop/docs/erniekit.md

FastDeploy：

https://github.com/PaddlePaddle/FastDeploy/

资讯配图

资讯配图

资讯配图

资讯配图

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号