文心友约|ERNIE-4.5-VL多模态大模型,等你“大显身手”!

百度AI 2025-08-27 18:00
资讯配图

当 AI 技术从实验室走向千行百业,多模态交互正成为打破数字壁垒的关键。6月30日,百度文心4.5系列模型重磅开源,其中 ERNIE-4.5-VL 视觉语言模型ERNIE-4.5-VL-28B-A3B;ERNIE-4.5-VL-424B-A47B)以卓越的图文视频理解能力,支持100 +语言交互,为智能应用开辟全新可能。先来了解下 ERNIE-4.5-VL 视觉语言模型的技术亮点。


 01 

 小参数,大能量:效率与性能的双重突破  


实验结果表明,轻量级视觉语言模型 ERNIE-4.5-28B-A3B 的激活参数显著减少,但与 Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 相比,其在大多数基准测试中仍具有竞争力,甚至表现更优。模型支持128K 上下文长度,结合「思考模式」与「非思考模式」双选项,既能快速响应基础任务,又能深度破解复杂问题,灵活适配从日常场景到专业领域的全场景需求。


非思考模式下,ERNIE-4.5-VL 模型具备强大的视觉感知能力与知识准确性。ERNIE-4.5-VL-424B-A47B 在 CountBench、CV-Bench 和 RealWorldQA 等基准测试中取得高分;ERNIE-4.5-VL 展现出对中国视觉知识的深刻理解,其在 CCBench 上的出色表现便是证明。


思考模式下,ERNIE-4.5-VL-424B-A47B 在 MathVista、MMMU 和 VisualPuzzle 等基准测试中超越 OpenAI-o1。


▎详情查看技术报告:


https://ernie-blog-dev.now.baidu.com/blog/publication/ERNIE_Technical_Report.pdf


 02 

 全场景赋能:跨模态智能触手可及 


ERNIE-4.5-VL 的跨模态能力覆盖以下核心任务场景:


  • 文档处理「一键通」:拍照/扫描的文档理解、医疗报告结构化信息抽取、金融/货运等单据智能处理等场景,彻底告别繁琐录入。

  • 视频管理「智能化」:智能视频剪辑与素材管理、自动化高光集锦生成、智能安防与事后追溯等场景,让视频从「存储」变为「会说话的资产」;

  • 文化传承「活起来」:博物馆学术研究、博物馆文物导览、古籍数字化等场景,让千年文明触手可及;

  • 学习解题「超轻松」:从 K12 拍照解题、公务员图形题解析,到网络梗图的趣味解读,让学习与生活更高效;

  • 生活服务「更懂你」:现实/虚拟人物科普、旅游景点导览、动植物专业科普等,让 AI 成为贴心生活助手;

  • 创意生成「个性化」:营养食物均衡分析、穿着搭配建议生成等,基于图像的创意输出,让生活更有品质。


资讯配图


 03 

 实例印证:智能看得见、用得着 


OCR 解析与文档理解


  • 支持多语言文档解析,提取关键信息并结构化输出;

  • 高精度识别复杂格式文本,关联上下文语义。


资讯配图
资讯配图


▎视频内容时序定位


  • 支持视频内容理解,视频中的文字提取、翻译;

  • 根据视频内容创作脚本、字幕;

  • 视频特定事件时间点精准定位。


资讯配图


▎中国文化理解


  • 精准识别小篆、隶书、楷书、行书等各类传统字体;

  • 专业识别文物类型、年代、工艺,解读其历史文化与艺术价值;

  • 细致识别图像中的传统建筑、服饰等中国文化元素,挖掘象征意义。


资讯配图


▎学科推理


  • 文科图文题精解,融合历史地图、社会调查图表等图像信息与文史知识剖析问题。

  • 理科图示题巧析,结合几何图形、实验装置图等图示和数理原理推导解题思路。

  • 艺术图像题妙答,依据绘画作品、音乐乐谱等艺术图像和相关理论分析解答。


资讯配图
资讯配图
资讯配图

(左右滑动查看更多

▎视觉推理


  • 归纳推理:识别图形序列规律,准确预测缺失项

  • 空间感知:从二维图像中推断物体的相对位置、遮挡关系及可能的三维结构

  • 复杂推理:基于单张或多张图像中的显性与隐性线索,经过多轮中间推断得到最终答案


资讯配图
资讯配图
资讯配图

(左右滑动查看更多


▎常识推理


  • 精准识别文物、名人,实现准确的的常识链推理。

  • 根据景观轮廓、建筑风格或自然特征快速识别地标,并推断所在城市或国家。

  • 通过外形、颜色、纹理等特征精准辨认动植物种类。


资讯配图


▎图像条件创意生成


根据输入图像,生成与视觉内容语义相关的创意内容。


资讯配图


 04 

 有奖征集 


@文心友友们


多模态大模型的真正价值,在于对真实场景的适配能力。不妨结合你的工作与生活场景,用实际数据测试 ERNIE-4.5-VL 的硬核实力:


  • 职场人:用日常经手的英文合同、带复杂图表的财务报表拍照上传,观察它能否精准提取关键信息并生成结构化数据,对比人工处理的效率差;

  • 教育工作者:选取学生常出错的数学应用题、公务员考试图形推理真题,测试它的解题步骤是否清晰,能否举一反三给出同类题型;

  • 文化爱好者:拍摄博物馆参观时的文物照片(如青铜器铭文、古画题跋),验证它对文字的识别精度和背后历史文化解读的专业性;

  • 内容创作者:用自己拍摄的 vlog 片段或赛事录像,指令其自动生成字幕、剪辑高光片段,看看是否符合你的创作预期。


▎征集内容:

无论你是企业主体/职场人/自由职业者/创业团队,欢迎分享你使用 ERNIE-4.5-VL 实现的应用成果,不限于图/视频/链接/demo 等形式,我们也欢迎有真实业务场景的企业一起共建共创产业应用。


▎提交地址:

https://www.wjx.top/vm/htiOklF.aspx#


▎奖品清单:

筛选30位优质应用成果赠送以下奖品。


资讯配图
资讯配图
资讯配图

相关链接


■ 文心4.5系列模型下载


  • Hugging Face:

  • https://huggingface.co/baidu


  • 飞桨星河社区:

  • https://aistudio.baidu.com/modelsoverview?sortBy=weight&q=ernie


  • GitHub:

  • https://github.com/PaddlePaddle/ERNIE


  • 魔搭社区:

  • https://modelscope.cn/models/dengcao/ERNIE-4.5-VL-28B-A3B-Paddle


■ 文心4.5系列模型训练部署


  • ERNIEKit:

  • https://github.com/PaddlePaddle/ERNIE/blob/develop/docs/erniekit.md


  • FastDeploy:

  • https://github.com/PaddlePaddle/FastDeploy/


资讯配图
资讯配图
资讯配图
资讯配图


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号