全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA

新智元 2025-10-17 19:53

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图1



  新智元报道  

编辑:定慧 KingHZ
【新智元导读】百度登顶全球第一!最新模型「PaddleOCR-VL」以0.9B参数量,在全球权威榜单OmniDocBench V1.5中以92.6分夺得综合性能第一,横扫文本识别、公式识别、表格理解与阅读顺序四项SOTA。

今天习惯性地刷Hugging Face,突然发现Trending榜单第一的模型有点眼熟。

点进去一看,这不百度飞桨昨天才发布的PaddleOCR-VL吗,一夜之间就冲上榜首,这个速度也太快了吧!

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图2

Hugging Face:https://huggingface.co/PaddlePaddle/PaddleOCR-VL

去社区翻了一下,发现好多人都在聊这个模型,很多人使用后都各种称赞,什么:

PDF天才、PDF之神、OCR之神、又小又棒、难以置信、好用、迄今为止最强、能像人类一样理解文档、将文档AI提升到全新高度、最好的OCR框架。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图3
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图4
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图5
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图6
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图7
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图8

左右滑动查看

有点夸张啊,这么厉害的嘛,必须去翻一下了。

去看了一下官方文档,10月16日发布并开源的PaddleOCR-VL,已经在OCR领域全球第一啦!

这里插一句,OCR大家都熟悉,日常扫描或者用AI读个图片已经司空见惯,不过效果多多少少不能100%识别

OCR在AI领域的能力,还有另一个名称,这个能力基准叫做文档视觉语言理解基准

仔细看了一下16号公布的数据,在最新OmniDocBench榜单中,PaddleOCR-VL以92.6综合得分位列全球第一!而且是双榜单第一。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图9

OmniDocBench v1.0+v1.5双榜:百度的AI模型PaddleOCR-VL,综合性能全球第一

并且在四大核心能力维度——文本识别、公式识别、表格理解、阅读顺序中,PaddleOCR-VL均位居第一,是榜单中唯一在四项指标中全面领先的模型

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图10

然后去查了下OmniDocBench的权威性,这个基准测试榜单竟然是国际上最有代表性的文档视觉语言理解基准之一。

并且GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL、InternVL 1.5、MonkeyOCR Pro等主流模型都采用这个基准测试结果。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图11

OmniDocBench几乎包含能想到的所有PDF文件样式和内容

这下真的好奇心拉满了,必须实测感受一下了。

在百度飞桨AI Studio上,提供了一个PaddleOCR-VL Demo体验链接,可以直接上传文件。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图12

官方Demo体验:https://aistudio.baidu.com/application/detail/98365

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图13
实测惊人,堪称「OCR之神」

在测试完以上四项任务和评测基准外一些专门上难度的例子后,觉得PaddleOCR-VL真的有点厉害

最直观的感受就是,非常的准,或者说太准了!不愧是能登顶排第一的模型。

以前我们常用的一些传统OCR,或者说多模态大模型,比如GPT-5/Gemini等,大部分情况下能够识别个80/90%,已经觉得很厉害。

但PaddleOCR-VL给人的感觉就是不管是什么样子的文档上「犄角旮旯的」内容都能识别出来。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图14

文本识别

任意选择了编程书上的一页,PaddleOCR-VL的特点是对版面分解非常清晰。

分割出的每个模块都带有1、2、3这样的序号,在此基础上,再进行文本识别。

特地选择了带水印的代码和文本混杂章节,PaddleOCR-VL识别的准确率是100%。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图15
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图16
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图17

左右滑动查看

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图18

公式识别

对于复杂的数学公式,比如公式都有上下标、且很长的情况,PaddleOCR-VL也能完美的处理。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图19
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图20
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图21

左右滑动查看

同样的公式,使用GPT-5 OCR的模式,因为公式太长,GPT-5就没有识别出来。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图22

对于手写公式来说,也基本不在话下:

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图23

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图24

表格识别

OCR识别表格算是一个难题,而且表格类型丰富,有时候带边线,有时候不带,数字又多,模型非常容易整错。

用PaddleOCR-VL测了几个表格,发现它是「看得真准」

用PaddleOCR-VL识别了一下百度的财报,可以直接整理出一个非常好看的表格。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图25
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图26

左右滑动查看

识别一下工作报销用的表格,结果也很完美识别,准确率依然100%。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图27
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图28

还可以把类似表格的结构整体出来。

比如,App Store的免费APP排行榜就能提取到一张表格之中。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图29

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图30

阅读顺序

OCR识别的另一个难题就是文档的结构和阅读顺序

现代社会,信息的主要载体就是文档,而现在的文档不仅内容越来越复杂,而且版面也越来越多变。

多栏布局、图文混排、表格、折页、背景装饰、彩色印刷、倾斜扫描、手写注记……都大大增加了OCR的难度

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图31

文档的阅读顺序不一定总是从上到下,从左到右。

在PaddleOCR-VL技术报告附录中,还展示了模型如何像人一样去理解复杂的文档结构。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图32
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图33

以一份《2025百度人工智能创新与专利白皮书》为例,其中一页是这样。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图34

早期传统的OCR只能逐行扫描,会将红框中的字体连成一句本不存在的话。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图35

PaddleOCR-VL首先就对内容的版面进行准确地分割和定位。

这就是PaddleOCR-VL一个很强的能力,也是识别准确率很高的一大原因:能够像人一样理解复杂版面结构。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图36

无论是学术论文、多栏报刊还是技术报告,均可智能解析版面布局,自动还原符合人类阅读习惯的阅读顺序。

比如PaddleOCR-VL对左下角的图片处理也很「巧妙」,它直接「截图」,而没有「多此一举」去截取这些文字。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图37

对于更加复杂版面的识别,PaddleOCR-VL的表现也极其稳定。

以一份手写笔记为例,其中涉及到文本、数字、段落和图片等各种元素,以及人类才能理解的左右、上下分栏。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图38

PaddleOCR-VL(左一)的分法正确、合理,分解难点在于图片分割和上下、左右分栏。

而中间模型和右一其他模型则对版面的分解错误,比如无法理解「右下角的解析部分」其实是一整段。

小小揭秘一下,其他模型也是今年OCR领域其他爆火的VLM模型,中间是MinerU2.5,右边是dots.ocr。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图39

能够登顶权威榜单,并在文本识别、公式识别、表格理解和阅读顺序四个核心维度中均位列第一,背后离不开模型在版面分解与元素识别上的极高准确率

在精度方面,PaddleOCR-VL于OmniDocBench v1.5上实现了纪录级表现:文本编辑距离仅0.035、公式识别CDM达到91.43、表格TEDS为89.76、阅读顺序预测误差仅0.043。

这一系列数据不仅展现了模型在标准评测中的领先实力,也验证了其在复杂文档、手写稿及历史档案等高难度场景下依然保持稳定、精准的识别能力。

但以上这些还都属于是OCR的常规能力,PaddleOCR-VL的识别能力上限在哪里?


全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图40
准确率极高,才能登顶第一

看完PaddleOCR-VL的技术报告附录中案例后,发现以上这些只是PaddleOCR-VL能力的冰山一角。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图41

PaddleOCR-VL甚至可以「看懂」复杂金融图表,并给出具体数据的估算结果,这个能力确实有点「逆天」了。

以附录中图表为例(btw,这个能力不属于OmniDocBench评测基准)。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图42

PaddleOCR-VL能够准确提取柱状图和线图节点对应的数值与对应的省份进行匹配。

比如广东省对应的GDP数据在30000~35000之间,GDP增速在4%~5%之间,PaddleOCR-VL可以在这种「细粒度」上识别出一个区间比较准确的数值。

这就非常神奇了,人拿着肉眼看也很难对齐,需要搞把尺子才能目测出来~

而PaddleOCR-VL居然可以细节到这个程度。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图43

其他模型都或多或少的存在问题,并且作为对比的Qwen2.5VL-70B和GPT-4o,一个是参数远大于PaddleOCR-VL的开源VL模型,另一个则是经典的闭源多模态模型。

比如Qwen2.5VL-70B模型完全无法从细粒度上识别线图数据,都识别为了4%。

而GPT-4o则是识别错误,有点幻觉了,比如广东省的GDP直接识别成了6.5%。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图44

还有一个案例也比较夸张,比如纯手写的这封信。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图45

MinerU2.5和MonkeyOCR可能因为贴纸的干扰,未能识别到开头部分。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图46
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图47
复杂图表提取和理解

除了整体文档识别能力,PaddleOCR-VL还可以针对图表进行识别和内容提取。

类似这种需要从图表中提取表格数据的任务。

PaddleOCR-VL一键即可完成,错误率几乎为零。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图48
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图49

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图50

多语言支持,可识别109语言

PaddleOCR-VL还是一个「世界语言引擎」,是一个能够覆盖109种语言的超大规模文字识别体系。

能够精准识别中文、英语、法语、日语、俄语、阿拉伯语、西班牙语等。

比如,下列希腊语的现代诗歌的模糊图像,PaddleOCR-VL可分割图像和文本。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图51

法国文豪维克多·雨果的名言警句:

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图52

文学家陀思妥耶夫斯基的俄语名言:

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图53

德国数学家David Hilbert的墓志铭:

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图54

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图55

文本类型:手写体、生僻字也无妨

除了识别语言,PaddleOCR-VL在识别各个古籍、手写文本和历史文档也非常厉害。

古籍和各类手写文本的挑战在于,如何让AI以人类视角「看懂」这些文字。

PaddleOCR-VL在识别各种非标准化、非结构化文档后,能够按照「人类阅读习惯」来还原文本正确顺序。

不论是分栏、横/纵向、从左向右or从右向左,PaddleOCR-VL能够精准分辨出哪些是标题、正文、图注,文章应该从左向右阅读,还是从右向左阅读。

以下面的楷书字帖为例。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图56

PaddleOCR-VL(左一)的准确率可以做到几乎100%。

其他模型对于「肩膀」的识别都或多或少出现问题,虽然他们也是OCR领域今年的明星项目。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图57


而对于各种历史类、考古类古籍,一是文本的阅读顺序和现代不同,二是存在大量生僻繁体字和模糊文字。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图58
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图59

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图60
PaddleOCR-VL:文心4.5最强衍生模型

这次PaddleOCR-VL刷新了全球OCR VL模型性能天花板——

不仅超越GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等主流多模态大模型,还超越了MonkeyOCR-Pro-3B、MinerU2.5、dots.ocr等OCR领域模型。

在公开基准OmniDocBench v1.0、v1.5和olmOCR-Bench以及内部基准上,PaddleOCR-VL均达到了最先进水平SOTA。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图61全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图62全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图63

根据自建数据集上的测试,PaddleOCR-VL还具有出色的「跨语言」文本识别能力,在多个测试语种上均取得最佳成绩,对其他的OCR专有模型实现了碾压:

阿拉伯语(0.122)、韩语(0.052)、泰米尔语(0.043)、希腊语(0.135)、泰语(0.081)、泰卢固语(0.114)、天城文(0.097)、西里尔文(0.109)、拉丁文(0.013)和日文(0.086)。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图64

在文本类型指标中,新模型同样表现优异,所有类别均实现了最低错误率:

手写中文(0.089)、手写英文(0.042)、印刷中文(0.035)、印刷英文(0.016)、繁体中文(0.048)、古籍文本(0.198)、自然场景(0.067)、拼音(0.113)、生僻字(0.001)、竖排文本(0.005)、单字符(0.027)、表情符号(0.057)及艺术字体(0.165)。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图65

不仅识别效果与这些主流技术比肩,PaddleOCR-VL具有明显更低的时延和更高的吞吐量!

在推理方面,在单张A100 GPU上,PaddleOCR-VL每秒可处理1881个Token,推理速度较 MinerU2.5提升14.2%,较 dots.ocr 提升253.01%。

但模型的核心组件——视觉语言模型文心语言模型ERNIE-4.5-0.3B,非常小,只有0.9B!

这意味着它能部署在普通服务器、个人电脑,甚至还可以当一个插件安装在浏览器里。

但在OCR能力上,性能却能超越70B-200B这种大体积模型,甚至还能击败GPT-4o、Gemini 2.5等顶尖多模态模型!

PaddleOCR-VL堪称文心4.5最强衍生模型!

这既得益于团队在OCR领域不断的技术积累,更是因为在架构设计和数据构建上的创新。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图66

技术报告地址:https://arxiv.org/pdf/2510.14528

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图67

打破文档解析天花板,ERNIE-4.5-0.3B立新功

PaddleOCR-VL由PP-DocLayoutV2、PaddleOCR-VL-0.9B两部分组成。

其中,核心部分是PaddleOCR-VL-0.9B,融合了预训练视觉编码器与动态分辨率预处理器、双层MLP投影器以及预训练大语言模型。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图68

预处理技术采用原生动态高分辨率。视觉编码器,用了NaViT风格编码器,其支持原生分辨率输入。

这一设计让视觉语言模型PaddleOCR-VL-0.9B减少了幻觉、提升了性能。

投影器则高效地将视觉编码器的特征连接到语言模型的嵌入空间中。

在自回归语言模型中,整个序列是通过一次预测一个标记来生成的。这意味着解码器的规模直接影响整体推理延迟,因此更小的模型解码速度会更快。

考虑到这一点,团队选择ERNIE-4.5-0.3B模型。

这是一个开源语言模型,参数数量虽少,但推理效率很强。

可以说ERNIE-4.5-0.3B是PaddleOCR-VL-0.9B的「文本侧大脑」,高效地解读视觉编码器「看到的」内容。

文心ERNIE-4.5-0.3B语言模型+NaViT风格动态分辨率视觉编码器,双管齐下显著提升了PaddleOCR-VL的文档解析性能,同时实现了最低的内存占用和更快的推理速度。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图69

在A100上,不同文档解析模型的端到端推理速度

整体上,相较端到端方案,能够在复杂版面中更稳定、更高效,有效避免多模态模型常见的幻觉与错位问题。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图70

创新架构设计:避免错误与幻觉

如上所述,PaddleOCR-VL由两个核心模块组成:

在架构上,PP-DocLayoutV2由两个按顺序连接的网络组成。

与其他专用模型相比,PP-DocLayoutV2模型通过将RT-DETR高效扩展为带指针网络的结构,以更少的参数实现了更高的性能。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图71

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图72

训练数据:广覆盖 + 自动标注 + 难例挖掘

为构建高质量、且多样化的训练数据集,PaddleOCR-VL团队创新了数据构建方法。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图73

为支撑复杂文档理解,团队构建了广泛、多源、高难度的数据体系:

开源数据集+  合成数据  +可公开获取的网络数据+内部数据,总数据量超过3000万样本,而「自动化标注+难例挖掘」保证数据高质量Scaling。

特别是,「难例挖掘」流程突破了特定复杂场景下的性能瓶颈。


全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图74
高精度轻量的模型,对于OCR行业意味着什么

纵观历史,信息抽象和检索的进步一直推动着人类的发展。

从象形文字到莎草纸,从印刷术到数字化,每一次飞跃都让人类知识变得更容易获取和应用,从而激发更多创新。

如今,我们正处于下一个重大飞跃的边缘——解锁所有数字化信息的集体智慧。

技术上,OCR任务成为VL大模型竞争关键之一。

价值上,大模型时代,OCR越来越越来越重要——

现实世界的信息以非结构化形态存在,大模型要发挥价值,必须依赖OCR进行信息转化。

OCR地位上升的三大原因:

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图75

OCR行业的AI新生

全球科技巨头在OCR领域展开激烈竞争,纷纷推出创新模型。

比如,IBM联合HuggingFace推出专用小模型SmolDocling;Mistral AI推出1000页1美元的OCR服务等。

2023年,市场研究与咨询公司Grand View Research预计,到2030年将增长至329亿美元,2024-2030年复合年增长率达14.8%;市场增长主要驱动力,源于生产效率提升及自动内容识别系统普及。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图76

最近,Allied Market Research预计,从2025年到2034年将以15.1%的复合年增长率增长,到2034年将达到506.065亿美元。

而Adobe、ABBYY、亚马逊、微软、IBM、谷歌母公司Alphabet等早已成为市场的主要玩家。

这些公司正通过扩展服务范围、建立战略合作、提升数字可及性、加强客户触达和技术创新等方式巩固市场竞争力。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图77

而PaddleOCR-VL的这次开源,或将进一步冲击市场。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图78

登顶背后:还得是经典

PaddleOCR-VL的冲榜速度确实让人很吃惊。

乍一看,PaddleOCR-VL好像是突然冒出来的一个模型,但其实背后的团队和模型已经打磨好多年了~

PaddleOCR-VL是由百度飞桨PaddleOCR团队出品,PaddleOCR-VL模型是在PaddleOCR基础上迭代而来,而PaddleOCR在OCR领域是很早就出名了。

PaddleOCR自2020年开源以来,累计下载量已经突破900万,被超过6k开源项目直接或间接使用。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图79

该项目也是GitHub社区中唯一一个Star数超过50k的中国OCR项目。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图80

PaddleOCR,这个经典的模型可以说是「久经考验」。

在历经多年打磨后的PaddleOCR VL能够一飞冲天,其实本质上还是厚积薄发,也是很能说得过去了。

OCR行业也可以说是踩中了AI的浪潮,成为「风口上的猪」。

现在AI不论是从需要阅读文档的角度,还是为AI提供训练语料的角度,OCR是最开始也是最重要的环节之一。

未来,随着AI原生应用的加速到来,文档将不再只是信息的容器,而是大模型学习和认知世界的入口。

而PaddleOCR-VL,正成为AI认识世界的一双眼睛。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图81
彩蛋

1989年,Yann LeCun(图灵奖得主)首次将反向传播神经网络应用于手写数字识别。

他让神经网络直接「学」到字符识别的映射,而无需复杂的特征工程。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图82

不管是图像识别还是OCR,这是机器能够看懂「文字」的一个关键节点。

那么25年过去了,现在的OCR技术能不能准确识别这些数字?

用PaddleOCR-VL试了下,能够准确地识别了这些数字。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图83

意外的是,GPT-5 OCR在识别右上角「75216」时,错误的识别成「75316」。(因为数字2上面有个干扰项)

第二行右侧的「23505」也莫名多了一个「5」,变成了「235505」。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图84

谷歌的Gemini 2.5 Pro同样在多处识别错误。

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图85

看来还是术业有专攻,在OCR领域,PaddleOCR-VL更胜一筹。

参考资料:
https://arxiv.org/pdf/2510.14528
https://huggingface.co/PaddlePaddle/PaddleOCR-VL
https://aistudio.baidu.com/application/detail/98365

全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA图86

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 百度
more
可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
400元遥操95%机械臂!上海交大推出开源项目U-Arm,打造通用、低成本的人机遥操作接口
AI 应用方式展望,关于开源、SaaS 以及企业级智能体 | 区势· AI
边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA
更高智商更快思考!蚂蚁开源最新万亿语言模型,多项复杂推理SOTA
英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
混元3D开源端到端全景深度估计器,代码+精选全景数据已上线,在线可玩
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元
斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号