MinerU2.5团队 投稿
量子位 | 公众号 QbitAI
大模型越来越大,参数量动辄千亿,但真要在实际场景里做到“高精度+高效率”,却并不容易。
上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。
作为MinerU系列最新成果,该模型仅以1.2B参数规模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。
凭借高精度、多模态的文档理解与结构化输出能力,MinerU2.5尤其适合构建RAG知识库与大规模文档提取等实际应用场景。
△OmniDocBench文档解析评测结果
从上图可以看出,MinerU2.5在整体解析能力及单元素解析能力维度上全面第一。不仅如此,在技术报告中,无论是文本、公式、表格,还是阅读顺序等核心解析任务,MinerU2.5都展现出卓越的技术性能。

除了在指标上全面领先外,团队还对不同类型文档的解析结果进行了人工评估。
结果显示,MinerU2.5在解析精度和用户体验上均实现显著提升,在布局检测、表格识别、公式识别、文本识别等关键任务上取得全面突破。
实现高精度与高效率
凭借1.2B精巧参数,MinerU2.5在大规模语料提取等生产力场景中兼顾高精度与高效率,体现出“小身材、大能量”的独特优势,展现出强大的应用价值。
为了保证模型能够轻松处理不同来源、不同难度、包含不同元素的文档,科研团队精心设计了文档解析数据引擎,为模型预训练和微调阶段提供多样性、高质量数据。
针对文档解析的预训练阶段,团队考虑从文档多样性、元素多样性、中英文数量均衡保证预训练数据的多样性,并通过多阶段模型筛选保证数据质量。
在模型微调阶段,团队采用了基于推理一致性的迭代挖掘策略,针对一阶段预训练模型挖掘困难样本,并结合智能化标注及专家修正保证数据足够复杂、精准,有效提升模型在复杂样本上的解析能力。
△MinerU2.5文档解析大模型技术架构
最终模型在复杂排版、复杂公式及复杂表格上性能显著提升,在其他普通样本上的解析精度更是达到了媲美人工标注员的水平。
在解析效率方面,MinerU2.5采用了QwenVL2系列的原生分辨率视觉编码器(675M)及0.5B的语言解码器,模型总参数量接近1.2B。
在布局分析阶段,MinerU2.5将高分辨率文档图像下采样到1036*1036 从而实现高效解析。在内容识别阶段,MinerU2.5仅需将切割的小区域元素进行原生分辨率编码解析,解析速度快、精度高、幻觉少。
配合vLLM参数优化及工程优化,MinerU2.5在消费级显卡4090(48G)上达到每秒1.7页的解析速度,远超其他大模型解析方案,让高质量、低成本的解析成为现实。
出图、表格和公式解析能力得到大幅提升

在出图方面,模型鲁棒性得到增强,可轻松处理各类文档:在论文、数据、考题、课本、研报、财报、PPT等多样性文档上均表现出精准的解析结果。

此外,表格解析能力也得到了大幅提升:在各种类别的表格上,解析能力优秀,特别是旋转表格、无线表、少线表和复杂表格上,相比于之前进步显著。
在公式解析任务上,模型对各类公式均能输出准确结果。特别地,MinerU2.5创新性地将复合公式解耦为多个原子公式进行解析,从而显著提升了针对复杂长公式的解析能力。
MinerU2.5已经全面上线,包括HuggingFace、ModelScope和GitHub在内的多平台均可获取模型下载、源码及在线Demo,科研人员和开发者都能轻松下载、运行和复现模型效果。
依托MinerU2.5多模态大模型核心能力,MinerU在线产品功能实现全面升级。
本次迭代新增了表格旋转识别、无线或少线表格解析、跨格式文档无损复制以及参考文献识别等功能,并对中文公式、复杂数学公式以及嵌套表格的解析精度进行了优化。
所有新增功能已完整融入JSON/Markdown导出、复制、翻译等重要操作,实现开箱即用、流畅无缝的使用体验。
值得一提的是,导出的JSON文件保留了页眉、页脚、页码、脚注及侧边文本等全部信息,为开发者提供了更便捷的二次处理条件,同时大幅提升了文档解析的准确性与适用范围。
△MinerU在线版已全部上架MinerU2.5最新模型能力
在国产算力生态建设方面,OpenDataLab团队采取“自主可控+开放协同”双轨策略,持续推动国产化适配与算力优化。通过与DeepLink的联合攻关,依托其开放计算体系实现多后端算力的打通,MinerU2.5得以在国产千卡级平台上稳定高效运行。
同时,MinerU2.5正在与昇腾、沐曦、摩尔线程、寒武纪、海光等国产平台完成深度适配,相关技术成果将以开源方式共享,为高性能应用场景提供可靠的产业化支撑。
在应用落地方面,MinerU已率先开发出面向N8n、扣子、FastGP、BISHENG等主流Agent平台的插件,并为钉钉、Cherry Studio、Sider等知名AI工具提供接入与技术保障。
未来,团队将继续扩展国内外主流平台及开发工具的适配范围,推动技术与重点行业应用深度融合,构建开放、兼容且可持续发展的生态体系。
技术报告:https://arxiv.org/abs/2509.22186
开源项目:https://github.com/opendatalab/MinerU
开源模型:https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B
在线使用:https://mineru.net
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟