
DeepSeek 昨天发布了一篇关于 OCR(光学字符识别)的论文,真正让我眼前一亮的是他们极度的创造力和跳出常规的思维能力。
DeepSeek 团队在他们的 R1 模型中首次展示了其工程上的巧思。
而现在,他们又将一图胜千言这句名言,变成了一项实实在在的技术突破。

工作原理
简单来说:DeepSeek 的 OCR 系统,会把一张页面图像当作一个超级压缩的文本文件,就像一个 zip 压缩包。
模型不会在内存中保留数千个文本令牌,而是将图像转换为一小组视觉令牌。
当您需要恢复内容时,它会读取这些令牌并将其转换回文字。
该论文报告称,在约 10 倍压缩率下,内容恢复率约为 97%;即使在约 20 倍压缩率下,恢复率仍有约 60%。
这对于降低成本和提升速度而言,意义重大。
这就像你二十年前的一段记忆。你记得和父母在海滩度假的快乐时光,但可能已经不确定当时冰淇淋的口味了。
细节是模糊的,但当你集中注意力,通过一些逆向逻辑思考,你也能重建很多内容,记忆会随之变得更加生动。
我们这里讨论的机制与此类似:你可以保留一个紧凑的图像记忆,解析出其中 97% 的内容。
然后,或许可以通过一些技巧和提示工程,来重建那些丢失的细节。
这是一种非常巧妙且实用的方法,可以节省宝贵的大脑空间。
构建方式
他们的创新包含两个部分:一个深度编码器,它将一个页面转换为极少量的视觉令牌(如 64、100、256 或 400 个)。
对于内容密集的页面,还有一个平铺式的,代号高达的模式。
另一部分是一个轻量级的混合专家解码器,它将这些令牌转回文本(每一步只有约 5.7 亿参数被激活,因此它能像小模型一样运行)。
这个编码器就像一个智能压缩器:它先进行局部查看,在执行全局处理前将令牌缩小约 16 倍。
它还允许你选择能保持清晰读取的、成本最低的设置。
当您稍后需要内容时,解码器再将令牌读回文字——原理就是这么简单。

DeepSeek-OCR 论文
这为何意义重大
这项技术为长上下文(例如旧的聊天记录或大型 PDF 文件)解锁了成本极低的内存方案。
你可以存储图像或视觉令牌,而不是堆积如山的文本令牌,然后在你真正需要时才恢复文本。
他们甚至展示了一种渐进式的遗忘技巧:以较低的分辨率保存较早的页面,以节省更多令牌。
而且其吞吐量也并非空谈,在单张 A100-40G 显卡上每天可处理数十万页。
因此,这感觉是可以实际部署的,而不仅仅是停留在学术层面。
如果这项技术可以规模化,那么它可能会重新定义大语言模型处理上下文的方式,以及更重要的——成本。
宏观视角
正如 Andrej Karpathy 所指出的,纯文本对于模型而言,可能是一种有浪费的交互界面。
像这样的多模态方法预示着一个未来:图像(以及其他模态)可以更有效地承载上下文。
甚至埃隆·马斯克也对这一想法表示赞同。
因此,大语言模型的输入扩展到远超文本的范围,或许只是时间问题。


论文地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR
一键三连「