
当 AI 技术从实验室走向千行百业,多模态交互正成为打破数字壁垒的关键。6月30日,百度文心4.5系列模型重磅开源,其中 ERNIE-4.5-VL 视觉语言模型(ERNIE-4.5-VL-28B-A3B;ERNIE-4.5-VL-424B-A47B)以卓越的图文视频理解能力,支持100 +语言交互,为智能应用开辟全新可能。先来了解下 ERNIE-4.5-VL 视觉语言模型的技术亮点。
01
小参数,大能量:效率与性能的双重突破
实验结果表明,轻量级视觉语言模型 ERNIE-4.5-28B-A3B 的激活参数显著减少,但与 Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 相比,其在大多数基准测试中仍具有竞争力,甚至表现更优。模型支持128K 上下文长度,结合「思考模式」与「非思考模式」双选项,既能快速响应基础任务,又能深度破解复杂问题,灵活适配从日常场景到专业领域的全场景需求。
非思考模式下,ERNIE-4.5-VL 模型具备强大的视觉感知能力与知识准确性。ERNIE-4.5-VL-424B-A47B 在 CountBench、CV-Bench 和 RealWorldQA 等基准测试中取得高分;ERNIE-4.5-VL 展现出对中国视觉知识的深刻理解,其在 CCBench 上的出色表现便是证明。
思考模式下,ERNIE-4.5-VL-424B-A47B 在 MathVista、MMMU 和 VisualPuzzle 等基准测试中超越 OpenAI-o1。
▎详情查看技术报告:
https://ernie-blog-dev.now.baidu.com/blog/publication/ERNIE_Technical_Report.pdf
02
全场景赋能:跨模态智能触手可及
ERNIE-4.5-VL 的跨模态能力覆盖以下核心任务场景:
文档处理「一键通」:拍照/扫描的文档理解、医疗报告结构化信息抽取、金融/货运等单据智能处理等场景,彻底告别繁琐录入。
视频管理「智能化」:智能视频剪辑与素材管理、自动化高光集锦生成、智能安防与事后追溯等场景,让视频从「存储」变为「会说话的资产」;
文化传承「活起来」:博物馆学术研究、博物馆文物导览、古籍数字化等场景,让千年文明触手可及;
学习解题「超轻松」:从 K12 拍照解题、公务员图形题解析,到网络梗图的趣味解读,让学习与生活更高效;
生活服务「更懂你」:现实/虚拟人物科普、旅游景点导览、动植物专业科普等,让 AI 成为贴心生活助手;
创意生成「个性化」:营养食物均衡分析、穿着搭配建议生成等,基于图像的创意输出,让生活更有品质。

03
实例印证:智能看得见、用得着
▎OCR 解析与文档理解
支持多语言文档解析,提取关键信息并结构化输出;
高精度识别复杂格式文本,关联上下文语义。


▎视频内容时序定位
支持视频内容理解,视频中的文字提取、翻译;
根据视频内容创作脚本、字幕;
视频特定事件时间点精准定位。

▎中国文化理解
精准识别小篆、隶书、楷书、行书等各类传统字体;
专业识别文物类型、年代、工艺,解读其历史文化与艺术价值;
细致识别图像中的传统建筑、服饰等中国文化元素,挖掘象征意义。

▎学科推理
文科图文题精解,融合历史地图、社会调查图表等图像信息与文史知识剖析问题。
理科图示题巧析,结合几何图形、实验装置图等图示和数理原理推导解题思路。
艺术图像题妙答,依据绘画作品、音乐乐谱等艺术图像和相关理论分析解答。
(左右滑动查看更多
)
▎视觉推理
归纳推理:识别图形序列规律,准确预测缺失项
空间感知:从二维图像中推断物体的相对位置、遮挡关系及可能的三维结构
复杂推理:基于单张或多张图像中的显性与隐性线索,经过多轮中间推断得到最终答案
(左右滑动查看更多
)
▎常识推理
精准识别文物、名人,实现准确的的常识链推理。
根据景观轮廓、建筑风格或自然特征快速识别地标,并推断所在城市或国家。
通过外形、颜色、纹理等特征精准辨认动植物种类。

▎图像条件创意生成
根据输入图像,生成与视觉内容语义相关的创意内容。

04
有奖征集
@文心友友们
多模态大模型的真正价值,在于对真实场景的适配能力。不妨结合你的工作与生活场景,用实际数据测试 ERNIE-4.5-VL 的硬核实力:
职场人:用日常经手的英文合同、带复杂图表的财务报表拍照上传,观察它能否精准提取关键信息并生成结构化数据,对比人工处理的效率差;
教育工作者:选取学生常出错的数学应用题、公务员考试图形推理真题,测试它的解题步骤是否清晰,能否举一反三给出同类题型;
文化爱好者:拍摄博物馆参观时的文物照片(如青铜器铭文、古画题跋),验证它对文字的识别精度和背后历史文化解读的专业性;
内容创作者:用自己拍摄的 vlog 片段或赛事录像,指令其自动生成字幕、剪辑高光片段,看看是否符合你的创作预期。
▎征集内容:
无论你是企业主体/职场人/自由职业者/创业团队,欢迎分享你使用 ERNIE-4.5-VL 实现的应用成果,不限于图/视频/链接/demo 等形式,我们也欢迎有真实业务场景的企业一起共建共创产业应用。
▎提交地址:
https://www.wjx.top/vm/htiOklF.aspx#
▎奖品清单:
筛选30位优质应用成果赠送以下奖品。



▎相关链接
■ 文心4.5系列模型下载
Hugging Face:
https://huggingface.co/baidu
飞桨星河社区:
https://aistudio.baidu.com/modelsoverview?sortBy=weight&q=ernie
GitHub:
https://github.com/PaddlePaddle/ERNIE
魔搭社区:
https://modelscope.cn/models/dengcao/ERNIE-4.5-VL-28B-A3B-Paddle
■ 文心4.5系列模型训练部署
ERNIEKit:
https://github.com/PaddlePaddle/ERNIE/blob/develop/docs/erniekit.md
FastDeploy:
https://github.com/PaddlePaddle/FastDeploy/



