DeepSeek终于想起自己还有多模态模型了。
上周四,。今天,DeepSeek 出乎意料地发布了一个 3B 总参数、激活570M 的 OCR 模型——DeepSeek-OCR!
这款创新的视觉-语言模型(VLM)通过光学压缩技术,以极少的视觉标记(vision tokens)实现高效的文本信息解码,为长文本处理开辟了全新路径。本文将带您深入了解DeepSeek-OCR的技术亮点、核心创新以及其在实际应用中的巨大潜力。

引言:光学压缩的革命性潜力
在信息爆炸的时代,大语言模型在处理长篇文档、历史对话记录或复杂多模态数据时,常常面临计算资源的瓶颈。传统的文本处理方式需要将大量文本转化为标记(tokens),但随着文本长度的增加,计算复杂性迅速攀升。DeepSeek-AI的研究团队敏锐地捕捉到了视觉模态的潜力,提出了一种全新的解决方案:通过将文本信息压缩为图像,利用视觉-语言模型进行高效解码。这种方法不仅大幅降低了标记数量,还保留了信息的完整性,为长文本处理提供了革命性的思路。
DeepSeek-OCR是这一理念的初步验证成果。它通过创新的DeepEncoder架构和高效的DeepSeek3B-MoE解码器,实现了高达20倍的文本压缩比,同时保持了令人瞩目的解码精度。在Fox基准测试中,DeepSeek-OCR在10倍压缩比下达到97%的光学字符识别(OCR)精度,即便在20倍压缩比下,精度依然保持在60%左右。这一成果不仅展示了光学压缩的潜力,也为未来的长上下文处理、记忆遗忘机制以及多模态数据生成提供了新的研究方向。
技术核心:DeepSeek-OCR的创新架构
DeepSeek-OCR的成功离不开其精心设计的架构,主要由DeepEncoder和DeepSeek3B-MoE解码器两部分组成。

DeepEncoder是整个模型的核心,负责将高分辨率图像转化为少量的视觉标记,同时保持低激活内存,确保高效的计算性能。DeepEncoder结合了SAM(Segment Anything Model)和CLIP(Contrastive Language-Image Pretraining)两种预训练模型的优势,通过一个16倍卷积压缩模块将视觉标记数量大幅减少。例如,对于一张1024×1024像素的图像,DeepEncoder能够将其分割为4096个初始标记,经过压缩后仅输出256个标记,大幅降低了后续处理的计算负担。
解码器则采用了DeepSeek3B-MoE架构,这是一个基于混合专家(Mixture-of-Experts)的高效模型,仅激活570M参数,却能达到3B参数模型的表达能力。这种设计使得DeepSeek-OCR在推理效率和性能之间取得了完美的平衡,特别适合OCR等特定领域的任务。
此外,DeepSeek-OCR支持多种分辨率模式,包括Tiny(512×512,64标记)、Small(640×640,100标记)、Base(1024×1024,256标记)和Large(1280×1280,400标记),以及动态分辨率模式Gundam和Gundam-M。这种灵活性使得模型能够根据输入图像的复杂程度调整标记数量,从而在不同场景下实现最优的压缩效果。
数据驱动:多样化的训练数据
DeepSeek-OCR的出色性能离不开其丰富多样的训练数据。研究团队构建了一个包含70% OCR数据、20%通用视觉数据和10%纯文本数据的训练数据集,确保模型在文本识别、图像理解和语言能力上均表现出色。
在OCR数据方面,DeepSeek-OCR收集了3000万页PDF数据,覆盖约100种语言,其中中文和英文数据各占2500万页和500万页。这些数据分为粗标注和精标注两类:粗标注通过fitz工具直接提取文本,用于训练模型识别多语言文本;精标注则结合了PP-DocLayout和GOT-OCR2.0等高级模型,生成包含布局信息的检测和识别数据。此外,研究团队还收集了300万页Word文档数据,用于增强模型对公式和表格的处理能力,以及1000万自然场景OCR数据,提升模型在中文和英文场景中的表现。
对于OCR 2.0数据,DeepSeek-OCR支持复杂图像的解析任务,包括图表、化学公式和平面几何图像。图表数据通过pyecharts和matplotlib生成1000万张图像,采用HTML表格格式作为标注,以节省标记数量。化学公式数据利用PubChem的SMILES格式生成500万图像-文本对,而平面几何数据则通过感知尺度的编码方式生成100万数据样本,确保模型能够精确解析复杂的几何图形。


性能表现:高效压缩与实用价值
DeepSeek-OCR在Fox基准测试中的表现令人印象深刻。研究团队选取了包含600-1300个文本标记的100页英文文档进行测试,结果显示,在Tiny模式(64个视觉标记)下,模型在10.5倍压缩比时达到96.5%的精度;在Small模式(100个视觉标记)下,压缩比为6.7倍时,精度高达98.5%。即使在更高压缩比(如19.7倍)下,模型依然保持了59.1%的精度,展现了其在高压缩场景下的鲁棒性。

在实际应用场景中,DeepSeek-OCR在OmniDocBench上的表现同样出色。仅使用100个视觉标记(640×640分辨率),它就超越了需要256个标记的GOT-OCR2.0;在Gundam模式下,使用不到800个标记,DeepSeek-OCR的性能甚至优于需要近7000个标记的MinerU2.0。这表明DeepSeek-OCR在保持高精度的同时,显著降低了计算成本,为大规模文档处理提供了高效解决方案。
此外,DeepSeek-OCR在生产环境中展现了惊人的数据生成能力。使用20个节点(每个节点配备8个A100-40G GPU),模型每天可处理3300万页文档数据,为大型语言模型和视觉-语言模型的预训练提供了强大的数据支持。
深层解析与多语言支持
DeepSeek-OCR不仅在文本压缩方面表现出色,还具备强大的深层解析能力。所谓深层解析,指的是模型能够对文档中的复杂图像(如图表、化学公式、几何图形)进行二次调用,生成结构化的输出。例如,在金融研究报告中,DeepSeek-OCR可以提取图表的结构化信息;在学术文档中,它能将化学公式转化为SMILES格式,或解析平面几何图形的线段和端点信息。这种能力对于科学、技术、工程和数学(STEM)领域的文档处理具有重要意义。

在多语言支持方面,DeepSeek-OCR能够处理近100种语言的PDF文档,覆盖中文、英文、阿拉伯语、僧伽罗语等多种语言。模型支持布局和非查询两种OCR格式,通过不同的提示词实现灵活切换。这种多语言能力使其在处理全球化的文档数据时具有显著优势。
未来展望:光学压缩与记忆遗忘机制
DeepSeek-OCR的研究不仅为文档处理提供了高效工具,还为长上下文处理和记忆遗忘机制开辟了新的研究方向。研究团队提出了一种类比于人类记忆衰减的光学压缩方法:通过将历史对话或文本渲染为图像,并逐步降低图像分辨率,实现多级压缩。这种方法模拟了人类记忆中近期信息高保真、远期信息逐渐模糊的特性,为构建理论上无限长的上下文架构提供了可能。

尽管DeepSeek-OCR的初步成果令人振奋,但研究团队也指出,这只是光学压缩领域的初探。未来的研究将进一步探索数字-光学文本交错预训练、在复杂场景下的针尖找针测试等,以验证光学压缩在更广泛场景中的适用性。此外,优化视觉标记分配、提升模型对超高分辨率图像的处理能力,也是未来研究的重要方向。
结语:开启视觉-语言协同新时代
DeepSeek-AI的DeepSeek-OCR通过创新的光学压缩技术,为长文本处理提供了一种高效、实用的解决方案。其在高压缩比下的出色性能、多语言支持以及深层解析能力,展现了视觉-语言模型在文档处理领域的巨大潜力。更为重要的是,这项工作为未来的长上下文处理、记忆遗忘机制以及多模态数据生成提供了新的思路,预示着视觉与语言模态协同的新时代。
模型权重:https://huggingface.co/deepseek-ai/DeepSeek-OCR
技术报告:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf