刚刚，DeepSeek-OCR开源！3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL

DeepSeek终于想起自己还有多模态模型了。

上周四，。今天，DeepSeek 出乎意料地发布了一个 3B 总参数、激活570M 的 OCR 模型——DeepSeek-OCR！

这款创新的视觉-语言模型（VLM）通过光学压缩技术，以极少的视觉标记（vision tokens）实现高效的文本信息解码，为长文本处理开辟了全新路径。本文将带您深入了解DeepSeek-OCR的技术亮点、核心创新以及其在实际应用中的巨大潜力。

刚刚，DeepSeek-OCR开源！3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图1 — 图 1：图 (a) 展示了在 Fox 基准测试集 [21] 上的压缩比（真值文本标记数量 / 模型使用的视觉标记数量）测试结果；图 (b) 展示了在 OmniDocBench 基准测试集 [27] 上的性能对比结果。在所有端到端模型中，DeepSeek-OCR 使用的视觉标记数量最少，且能实现当前最优（state-of-the-art）性能。

引言：光学压缩的革命性潜力

在信息爆炸的时代，大语言模型在处理长篇文档、历史对话记录或复杂多模态数据时，常常面临计算资源的瓶颈。传统的文本处理方式需要将大量文本转化为标记（tokens），但随着文本长度的增加，计算复杂性迅速攀升。DeepSeek-AI的研究团队敏锐地捕捉到了视觉模态的潜力，提出了一种全新的解决方案：通过将文本信息压缩为图像，利用视觉-语言模型进行高效解码。这种方法不仅大幅降低了标记数量，还保留了信息的完整性，为长文本处理提供了革命性的思路。

DeepSeek-OCR是这一理念的初步验证成果。它通过创新的DeepEncoder架构和高效的DeepSeek3B-MoE解码器，实现了高达20倍的文本压缩比，同时保持了令人瞩目的解码精度。在Fox基准测试中，DeepSeek-OCR在10倍压缩比下达到97%的光学字符识别（OCR）精度，即便在20倍压缩比下，精度依然保持在60%左右。这一成果不仅展示了光学压缩的潜力，也为未来的长上下文处理、记忆遗忘机制以及多模态数据生成提供了新的研究方向。

技术核心：DeepSeek-OCR的创新架构

DeepSeek-OCR的成功离不开其精心设计的架构，主要由DeepEncoder和DeepSeek3B-MoE解码器两部分组成。

刚刚，DeepSeek-OCR开源！3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图2 — 图 2：DeepSeek-OCR的架构图，展示了DeepEncoder和DeepSeek3B-MoE解码器的协同工作方式。DeepEncoder通过SAM和CLIP模块，以及16倍卷积压缩器，将高分辨率图像转化为少量视觉标记，为高效文本解码奠定了基础。

DeepEncoder是整个模型的核心，负责将高分辨率图像转化为少量的视觉标记，同时保持低激活内存，确保高效的计算性能。DeepEncoder结合了SAM（Segment Anything Model）和CLIP（Contrastive Language-Image Pretraining）两种预训练模型的优势，通过一个16倍卷积压缩模块将视觉标记数量大幅减少。例如，对于一张1024×1024像素的图像，DeepEncoder能够将其分割为4096个初始标记，经过压缩后仅输出256个标记，大幅降低了后续处理的计算负担。

解码器则采用了DeepSeek3B-MoE架构，这是一个基于混合专家（Mixture-of-Experts）的高效模型，仅激活570M参数，却能达到3B参数模型的表达能力。这种设计使得DeepSeek-OCR在推理效率和性能之间取得了完美的平衡，特别适合OCR等特定领域的任务。

此外，DeepSeek-OCR支持多种分辨率模式，包括Tiny（512×512，64标记）、Small（640×640，100标记）、Base（1024×1024，256标记）和Large（1280×1280，400标记），以及动态分辨率模式Gundam和Gundam-M。这种灵活性使得模型能够根据输入图像的复杂程度调整标记数量，从而在不同场景下实现最优的压缩效果。

数据驱动：多样化的训练数据

DeepSeek-OCR的出色性能离不开其丰富多样的训练数据。研究团队构建了一个包含70% OCR数据、20%通用视觉数据和10%纯文本数据的训练数据集，确保模型在文本识别、图像理解和语言能力上均表现出色。

在OCR数据方面，DeepSeek-OCR收集了3000万页PDF数据，覆盖约100种语言，其中中文和英文数据各占2500万页和500万页。这些数据分为粗标注和精标注两类：粗标注通过fitz工具直接提取文本，用于训练模型识别多语言文本；精标注则结合了PP-DocLayout和GOT-OCR2.0等高级模型，生成包含布局信息的检测和识别数据。此外，研究团队还收集了300万页Word文档数据，用于增强模型对公式和表格的处理能力，以及1000万自然场景OCR数据，提升模型在中文和英文场景中的表现。

对于OCR 2.0数据，DeepSeek-OCR支持复杂图像的解析任务，包括图表、化学公式和平面几何图像。图表数据通过pyecharts和matplotlib生成1000万张图像，采用HTML表格格式作为标注，以节省标记数量。化学公式数据利用PubChem的SMILES格式生成500万图像-文本对，而平面几何数据则通过感知尺度的编码方式生成100万数据样本，确保模型能够精确解析复杂的几何图形。

刚刚，DeepSeek-OCR开源！3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图3

刚刚，DeepSeek-OCR开源！3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图4 — 图 3：DeepSeek-OCR对图表和几何图像的真值标注示例。图表采用HTML表格格式，几何图像则使用字典格式记录线段和端点信息，提升了模型对复杂图像的解析能力。

性能表现：高效压缩与实用价值

DeepSeek-OCR在Fox基准测试中的表现令人印象深刻。研究团队选取了包含600-1300个文本标记的100页英文文档进行测试，结果显示，在Tiny模式（64个视觉标记）下，模型在10.5倍压缩比时达到96.5%的精度；在Small模式（100个视觉标记）下，压缩比为6.7倍时，精度高达98.5%。即使在更高压缩比（如19.7倍）下，模型依然保持了59.1%的精度，展现了其在高压缩场景下的鲁棒性。

刚刚，DeepSeek-OCR开源！3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图5

在实际应用场景中，DeepSeek-OCR在OmniDocBench上的表现同样出色。仅使用100个视觉标记（640×640分辨率），它就超越了需要256个标记的GOT-OCR2.0；在Gundam模式下，使用不到800个标记，DeepSeek-OCR的性能甚至优于需要近7000个标记的MinerU2.0。这表明DeepSeek-OCR在保持高精度的同时，显著降低了计算成本，为大规模文档处理提供了高效解决方案。

此外，DeepSeek-OCR在生产环境中展现了惊人的数据生成能力。使用20个节点（每个节点配备8个A100-40G GPU），模型每天可处理3300万页文档数据，为大型语言模型和视觉-语言模型的预训练提供了强大的数据支持。

深层解析与多语言支持

DeepSeek-OCR不仅在文本压缩方面表现出色，还具备强大的深层解析能力。所谓深层解析，指的是模型能够对文档中的复杂图像（如图表、化学公式、几何图形）进行二次调用，生成结构化的输出。例如，在金融研究报告中，DeepSeek-OCR可以提取图表的结构化信息；在学术文档中，它能将化学公式转化为SMILES格式，或解析平面几何图形的线段和端点信息。这种能力对于科学、技术、工程和数学（STEM）领域的文档处理具有重要意义。

刚刚，DeepSeek-OCR开源！3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图6 — 图 4：DeepSeek-OCR的深层解析模式在金融报告中提取图表结构化信息的示例，展示了模型在复杂文档处理中的强大能力。

在多语言支持方面，DeepSeek-OCR能够处理近100种语言的PDF文档，覆盖中文、英文、阿拉伯语、僧伽罗语等多种语言。模型支持布局和非查询两种OCR格式，通过不同的提示词实现灵活切换。这种多语言能力使其在处理全球化的文档数据时具有显著优势。

未来展望：光学压缩与记忆遗忘机制

DeepSeek-OCR的研究不仅为文档处理提供了高效工具，还为长上下文处理和记忆遗忘机制开辟了新的研究方向。研究团队提出了一种类比于人类记忆衰减的光学压缩方法：通过将历史对话或文本渲染为图像，并逐步降低图像分辨率，实现多级压缩。这种方法模拟了人类记忆中近期信息高保真、远期信息逐渐模糊的特性，为构建理论上无限长的上下文架构提供了可能。

刚刚，DeepSeek-OCR开源！3B激活570M的MoE端到端模型能否打败百度1B稠密模型PaddleOCR-VL图7 — 图 5：光学压缩方法模拟人类记忆遗忘机制，通过逐步降低图像分辨率实现多级压缩，为超长上下文处理提供了新思路。

尽管DeepSeek-OCR的初步成果令人振奋，但研究团队也指出，这只是光学压缩领域的初探。未来的研究将进一步探索数字-光学文本交错预训练、在复杂场景下的针尖找针测试等，以验证光学压缩在更广泛场景中的适用性。此外，优化视觉标记分配、提升模型对超高分辨率图像的处理能力，也是未来研究的重要方向。

结语：开启视觉-语言协同新时代

DeepSeek-AI的DeepSeek-OCR通过创新的光学压缩技术，为长文本处理提供了一种高效、实用的解决方案。其在高压缩比下的出色性能、多语言支持以及深层解析能力，展现了视觉-语言模型在文档处理领域的巨大潜力。更为重要的是，这项工作为未来的长上下文处理、记忆遗忘机制以及多模态数据生成提供了新的思路，预示着视觉与语言模态协同的新时代。

模型权重：https://huggingface.co/deepseek-ai/DeepSeek-OCR
技术报告：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf