刚刚,DeepSeek-OCR开源!3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL

机智流 2025-10-20 16:12

DeepSeek终于想起自己还有多模态模型了。

上周四,。今天,DeepSeek 出乎意料地发布了一个 3B 总参数、激活570M 的 OCR 模型——DeepSeek-OCR

这款创新的视觉-语言模型(VLM)通过光学压缩技术,以极少的视觉标记(vision tokens)实现高效的文本信息解码,为长文本处理开辟了全新路径。本文将带您深入了解DeepSeek-OCR的技术亮点、核心创新以及其在实际应用中的巨大潜力。

刚刚,DeepSeek-OCR开源!3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图1
图 1:图 (a) 展示了在 Fox 基准测试集 [21] 上的压缩比(真值文本标记数量 / 模型使用的视觉标记数量)测试结果;图 (b) 展示了在 OmniDocBench 基准测试集 [27] 上的性能对比结果。在所有端到端模型中,DeepSeek-OCR 使用的视觉标记数量最少,且能实现当前最优(state-of-the-art)性能。

引言:光学压缩的革命性潜力

在信息爆炸的时代,大语言模型在处理长篇文档、历史对话记录或复杂多模态数据时,常常面临计算资源的瓶颈。传统的文本处理方式需要将大量文本转化为标记(tokens),但随着文本长度的增加,计算复杂性迅速攀升。DeepSeek-AI的研究团队敏锐地捕捉到了视觉模态的潜力,提出了一种全新的解决方案:通过将文本信息压缩为图像,利用视觉-语言模型进行高效解码。这种方法不仅大幅降低了标记数量,还保留了信息的完整性,为长文本处理提供了革命性的思路。

DeepSeek-OCR是这一理念的初步验证成果。它通过创新的DeepEncoder架构和高效的DeepSeek3B-MoE解码器,实现了高达20倍的文本压缩比,同时保持了令人瞩目的解码精度。在Fox基准测试中,DeepSeek-OCR在10倍压缩比下达到97%的光学字符识别(OCR)精度,即便在20倍压缩比下,精度依然保持在60%左右。这一成果不仅展示了光学压缩的潜力,也为未来的长上下文处理、记忆遗忘机制以及多模态数据生成提供了新的研究方向。

技术核心:DeepSeek-OCR的创新架构

DeepSeek-OCR的成功离不开其精心设计的架构,主要由DeepEncoder和DeepSeek3B-MoE解码器两部分组成。

刚刚,DeepSeek-OCR开源!3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图2
图 2:DeepSeek-OCR的架构图,展示了DeepEncoder和DeepSeek3B-MoE解码器的协同工作方式。DeepEncoder通过SAM和CLIP模块,以及16倍卷积压缩器,将高分辨率图像转化为少量视觉标记,为高效文本解码奠定了基础。

DeepEncoder是整个模型的核心,负责将高分辨率图像转化为少量的视觉标记,同时保持低激活内存,确保高效的计算性能。DeepEncoder结合了SAM(Segment Anything Model)和CLIP(Contrastive Language-Image Pretraining)两种预训练模型的优势,通过一个16倍卷积压缩模块将视觉标记数量大幅减少。例如,对于一张1024×1024像素的图像,DeepEncoder能够将其分割为4096个初始标记,经过压缩后仅输出256个标记,大幅降低了后续处理的计算负担。

解码器则采用了DeepSeek3B-MoE架构,这是一个基于混合专家(Mixture-of-Experts)的高效模型,仅激活570M参数,却能达到3B参数模型的表达能力。这种设计使得DeepSeek-OCR在推理效率和性能之间取得了完美的平衡,特别适合OCR等特定领域的任务。

此外,DeepSeek-OCR支持多种分辨率模式,包括Tiny(512×512,64标记)、Small(640×640,100标记)、Base(1024×1024,256标记)和Large(1280×1280,400标记),以及动态分辨率模式Gundam和Gundam-M。这种灵活性使得模型能够根据输入图像的复杂程度调整标记数量,从而在不同场景下实现最优的压缩效果。

数据驱动:多样化的训练数据

DeepSeek-OCR的出色性能离不开其丰富多样的训练数据。研究团队构建了一个包含70% OCR数据、20%通用视觉数据和10%纯文本数据的训练数据集,确保模型在文本识别、图像理解和语言能力上均表现出色。

在OCR数据方面,DeepSeek-OCR收集了3000万页PDF数据,覆盖约100种语言,其中中文和英文数据各占2500万页和500万页。这些数据分为粗标注和精标注两类:粗标注通过fitz工具直接提取文本,用于训练模型识别多语言文本;精标注则结合了PP-DocLayout和GOT-OCR2.0等高级模型,生成包含布局信息的检测和识别数据。此外,研究团队还收集了300万页Word文档数据,用于增强模型对公式和表格的处理能力,以及1000万自然场景OCR数据,提升模型在中文和英文场景中的表现。

对于OCR 2.0数据,DeepSeek-OCR支持复杂图像的解析任务,包括图表、化学公式和平面几何图像。图表数据通过pyecharts和matplotlib生成1000万张图像,采用HTML表格格式作为标注,以节省标记数量。化学公式数据利用PubChem的SMILES格式生成500万图像-文本对,而平面几何数据则通过感知尺度的编码方式生成100万数据样本,确保模型能够精确解析复杂的几何图形。

刚刚,DeepSeek-OCR开源!3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图3
刚刚,DeepSeek-OCR开源!3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图4
图 3:DeepSeek-OCR对图表和几何图像的真值标注示例。图表采用HTML表格格式,几何图像则使用字典格式记录线段和端点信息,提升了模型对复杂图像的解析能力。

性能表现:高效压缩与实用价值

DeepSeek-OCR在Fox基准测试中的表现令人印象深刻。研究团队选取了包含600-1300个文本标记的100页英文文档进行测试,结果显示,在Tiny模式(64个视觉标记)下,模型在10.5倍压缩比时达到96.5%的精度;在Small模式(100个视觉标记)下,压缩比为6.7倍时,精度高达98.5%。即使在更高压缩比(如19.7倍)下,模型依然保持了59.1%的精度,展现了其在高压缩场景下的鲁棒性。

刚刚,DeepSeek-OCR开源!3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图5

在实际应用场景中,DeepSeek-OCR在OmniDocBench上的表现同样出色。仅使用100个视觉标记(640×640分辨率),它就超越了需要256个标记的GOT-OCR2.0;在Gundam模式下,使用不到800个标记,DeepSeek-OCR的性能甚至优于需要近7000个标记的MinerU2.0。这表明DeepSeek-OCR在保持高精度的同时,显著降低了计算成本,为大规模文档处理提供了高效解决方案。

此外,DeepSeek-OCR在生产环境中展现了惊人的数据生成能力。使用20个节点(每个节点配备8个A100-40G GPU),模型每天可处理3300万页文档数据,为大型语言模型和视觉-语言模型的预训练提供了强大的数据支持。

深层解析与多语言支持

DeepSeek-OCR不仅在文本压缩方面表现出色,还具备强大的深层解析能力。所谓深层解析,指的是模型能够对文档中的复杂图像(如图表、化学公式、几何图形)进行二次调用,生成结构化的输出。例如,在金融研究报告中,DeepSeek-OCR可以提取图表的结构化信息;在学术文档中,它能将化学公式转化为SMILES格式,或解析平面几何图形的线段和端点信息。这种能力对于科学、技术、工程和数学(STEM)领域的文档处理具有重要意义。

刚刚,DeepSeek-OCR开源!3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图6
图 4:DeepSeek-OCR的深层解析模式在金融报告中提取图表结构化信息的示例,展示了模型在复杂文档处理中的强大能力。

在多语言支持方面,DeepSeek-OCR能够处理近100种语言的PDF文档,覆盖中文、英文、阿拉伯语、僧伽罗语等多种语言。模型支持布局和非查询两种OCR格式,通过不同的提示词实现灵活切换。这种多语言能力使其在处理全球化的文档数据时具有显著优势。

未来展望:光学压缩与记忆遗忘机制

DeepSeek-OCR的研究不仅为文档处理提供了高效工具,还为长上下文处理和记忆遗忘机制开辟了新的研究方向。研究团队提出了一种类比于人类记忆衰减的光学压缩方法:通过将历史对话或文本渲染为图像,并逐步降低图像分辨率,实现多级压缩。这种方法模拟了人类记忆中近期信息高保真、远期信息逐渐模糊的特性,为构建理论上无限长的上下文架构提供了可能。

刚刚,DeepSeek-OCR开源!3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图7
图 5:光学压缩方法模拟人类记忆遗忘机制,通过逐步降低图像分辨率实现多级压缩,为超长上下文处理提供了新思路。

尽管DeepSeek-OCR的初步成果令人振奋,但研究团队也指出,这只是光学压缩领域的初探。未来的研究将进一步探索数字-光学文本交错预训练、在复杂场景下的针尖找针测试等,以验证光学压缩在更广泛场景中的适用性。此外,优化视觉标记分配、提升模型对超高分辨率图像的处理能力,也是未来研究的重要方向。

结语:开启视觉-语言协同新时代

DeepSeek-AI的DeepSeek-OCR通过创新的光学压缩技术,为长文本处理提供了一种高效、实用的解决方案。其在高压缩比下的出色性能、多语言支持以及深层解析能力,展现了视觉-语言模型在文档处理领域的巨大潜力。更为重要的是,这项工作为未来的长上下文处理、记忆遗忘机制以及多模态数据生成提供了新的思路,预示着视觉与语言模态协同的新时代。

模型权重:https://huggingface.co/deepseek-ai/DeepSeek-OCR

技术报告:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 百度
more
我国首个政务大模型安全国家标准发布 百度深度参与制定
香港自动驾驶驶入快车道,百度为何备受青睐?
全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA
【精选报告】大模型实战手册-2025百度智能云精选案例集:百度智能云的深度实践与创新(附PDF下载)
第四届琶洲算法大赛落幕!机器人打鼓助阵,百度发布全新AI审核产品
百度登上美国《财富》榜单,萝卜快跑全面爆发,李彦宏给马斯克上了一课
百度0.9B小模型碾压GPT-4o!PaddleOCR-VL 如何定义多模态文档理解新范式?
百度、寒武纪暴涨背后:资本变天,AI价值重估?
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算
广州无人机独角兽赴港IPO,年入10亿,软银、百度是股东
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号