十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

量子位 2025-09-29 18:44
MinerU2.5团队 投稿
量子位 | 公众号 QbitAI

大模型越来越大,参数量动辄千亿,但真要在实际场景里做到“高精度+高效率”,却并不容易。

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5

作为MinerU系列最新成果,该模型仅以1.2B参数规模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

凭借高精度、多模态的文档理解与结构化输出能力,MinerU2.5尤其适合构建RAG知识库与大规模文档提取等实际应用场景。

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家图1OmniDocBench文档解析评测结果

从上图可以看出,MinerU2.5在整体解析能力及单元素解析能力维度上全面第一。不仅如此,在技术报告中,无论是文本、公式、表格,还是阅读顺序等核心解析任务,MinerU2.5都展现出卓越的技术性能。

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家图2

除了在指标上全面领先外,团队还对不同类型文档的解析结果进行了人工评估。

结果显示,MinerU2.5在解析精度和用户体验上均实现显著提升,在布局检测、表格识别、公式识别、文本识别等关键任务上取得全面突破。

实现高精度与高效率

凭借1.2B精巧参数,MinerU2.5在大规模语料提取等生产力场景中兼顾高精度与高效率,体现出“小身材、大能量”的独特优势,展现出强大的应用价值

为了保证模型能够轻松处理不同来源、不同难度、包含不同元素的文档,科研团队精心设计了文档解析数据引擎,为模型预训练和微调阶段提供多样性、高质量数据。

针对文档解析的预训练阶段,团队考虑从文档多样性、元素多样性、中英文数量均衡保证预训练数据的多样性,并通过多阶段模型筛选保证数据质量。

在模型微调阶段,团队采用了基于推理一致性的迭代挖掘策略,针对一阶段预训练模型挖掘困难样本,并结合智能化标注及专家修正保证数据足够复杂、精准,有效提升模型在复杂样本上的解析能力。

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家图3MinerU2.5文档解析大模型技术架构

最终模型在复杂排版、复杂公式及复杂表格上性能显著提升,在其他普通样本上的解析精度更是达到了媲美人工标注员的水平。

在解析效率方面,MinerU2.5采用了QwenVL2系列的原生分辨率视觉编码器(675M)及0.5B的语言解码器,模型总参数量接近1.2B。

在布局分析阶段,MinerU2.5将高分辨率文档图像下采样到1036*1036 从而实现高效解析。在内容识别阶段,MinerU2.5仅需将切割的小区域元素进行原生分辨率编码解析,解析速度快、精度高、幻觉少。

配合vLLM参数优化及工程优化,MinerU2.5在消费级显卡4090(48G)上达到每秒1.7页的解析速度,远超其他大模型解析方案,让高质量、低成本的解析成为现实。

出图、表格和公式解析能力得到大幅提升

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家图4

在出图方面,模型鲁棒性得到增强,可轻松处理各类文档:在论文、数据、考题、课本、研报、财报、PPT等多样性文档上均表现出精准的解析结果。

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家图5

此外,表格解析能力也得到了大幅提升:在各种类别的表格上,解析能力优秀,特别是旋转表格、无线表、少线表和复杂表格上,相比于之前进步显著。

在公式解析任务上,模型对各类公式均能输出准确结果。特别地,MinerU2.5创新性地将复合公式解耦为多个原子公式进行解析,从而显著提升了针对复杂长公式的解析能力。

MinerU2.5已经全面上线,包括HuggingFace、ModelScope和GitHub在内的多平台均可获取模型下载、源码及在线Demo,科研人员和开发者都能轻松下载、运行和复现模型效果。

依托MinerU2.5多模态大模型核心能力,MinerU在线产品功能实现全面升级

本次迭代新增了表格旋转识别、无线或少线表格解析、跨格式文档无损复制以及参考文献识别等功能,并对中文公式、复杂数学公式以及嵌套表格的解析精度进行了优化。

所有新增功能已完整融入JSON/Markdown导出、复制、翻译等重要操作,实现开箱即用、流畅无缝的使用体验。

值得一提的是,导出的JSON文件保留了页眉、页脚、页码、脚注及侧边文本等全部信息,为开发者提供了更便捷的二次处理条件,同时大幅提升了文档解析的准确性与适用范围。

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家图6MinerU在线版已全部上架MinerU2.5最新模型能力

在国产算力生态建设方面,OpenDataLab团队采取“自主可控+开放协同”双轨策略,持续推动国产化适配与算力优化。通过与DeepLink的联合攻关,依托其开放计算体系实现多后端算力的打通,MinerU2.5得以在国产千卡级平台上稳定高效运行。

同时,MinerU2.5正在与昇腾、沐曦、摩尔线程、寒武纪、海光等国产平台完成深度适配,相关技术成果将以开源方式共享,为高性能应用场景提供可靠的产业化支撑。

在应用落地方面,MinerU已率先开发出面向N8n、扣子、FastGP、BISHENG等主流Agent平台的插件,并为钉钉、Cherry Studio、Sider等知名AI工具提供接入与技术保障。

未来,团队将继续扩展国内外主流平台及开发工具的适配范围,推动技术与重点行业应用深度融合,构建开放、兼容且可持续发展的生态体系。

技术报告:https://arxiv.org/abs/2509.22186
开源项目:https://github.com/opendatalab/MinerU
开源模型:https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B
在线使用:https://mineru.net

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家图7


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
OpenAI:人类只剩最后5年
文字秒变成片,体验完剪映这些功能:这才是 AI 时代的创作方式
拆解OpenAI最新两大交易:左手甲骨文3000亿,右手英伟达1000亿,算力即权力
学术分享丨Science重磅:下一代协作型AI Agent?UCLA团队揭示AI、小鼠的共同合作逻辑
TechWeb早报:西贝贾国龙多平台清空账号,黄仁勋称OpenAI融资时英伟达太穷了
【AI加油站】机器人设计系列二十一:解码智能本质:从大脑皮层工作原理到人工智能的未来图景(附下载)
【精选报告】红杉AI崛起2025主题演讲:人工智能万亿美元机遇(附PDF下载)
「越狱神器」91助手停止服务/雷军:小米汽车定制服务推动科技平权/黄仁勋:应该把钱都给OpenAI
贝恩咨询报告:AI会颠覆全球科技巨头吗?【AI产业观察】
所有知识型岗都要被AI “吞了!清华大学教授刘嘉:未来大学分化猛烈,软件公司靠 “几人 + Agent” 就够
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号