
高质量数据是AI大模型训练与应用的基础。目前,大量非结构化数据因无法被大模型读懂而难以发挥价值。
由上海人工智能实验室(上海AI实验室)OpenDataLab推出的智能文档解析引擎MinerU,因其具备精准的解析能力及广泛的兼容性而深受用户青睐,在GitHub上已累计获得超4万星标。近期,MinerU已升级至2.0版本,实现解析速度提升6倍,综合准确度提升22%。MinerU2采用的模型参数量仅为0.9B,但整体实力位列同级别开源模型综合评分第一,甚至比肩72B的主流大模型。
作为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环,MinerU2已深度集成于『书生』科学发现平台Intern-Discovery、AI地球科学家智能体系统EarthLink等应用中,为用户提供高效的文档解析与数据提取服务,助力科研用户实现AI-Ready数据自由。
MinerU官网(点击文末阅读原文直达):
https://mineru.net/
MinerU桌面客户端:
https://mineru.net/client
API申请:
https://mineru.net/apiManage/token
GitHub链接:
https://github.com/opendatalab/MinerU
AI数据的价值跃迁 :从规模比拼到质量竞争
根据公开信息,2020年,GPT-3的训练数据量是5000亿Tokens;2025年,Qwen-3的预训练数据达到了36万亿Tokens。五年内,大模型的预训练数据量翻了72倍,这无疑是⼀场关于数据规模的比拼。
随着AI技术持续发展,能支撑模型训练的互联网公域数据已接近耗尽。另外,互联网数据的趋同性也导致模型出现同质化现象。因此,深入解析与挖掘高质量数据是“AI下半场”竞争的焦点。这些数据常存在于私域,且普遍为文档的形式,难以直接用于模型训练。
当前,将私域数据转化为AI-Ready数据,面临着三大挑战:
格式复杂多样:私域数据的来源多样,数据形态格式复杂,对文档解析能力提出挑战;
高精度要求:关键领域对数据精度要求高,微小误差可能引发决策偏差与业务风险;
高速度需求:产业侧发展速度越来越快,数据引擎必须具备更快的处理能力才能支撑迭代需求。
MinerU2破解“三大挑战”,拓展科学领域AI‑Ready数据构建能力
在此背景下,上海AI实验室于推出开源智能文档解析引擎MinerU,支持高精度解析文档元素,支撑构建高质量AI-Ready数据。经过一年的潜心研发,上海AI实验室团队联合北京大学团队,以全新技术架构推出MinerU2——端到端多模态文档解析大模型,实现解析准确率提升22%,解析速度提升6倍,覆盖30余个行业场景,综合评分位列同级别开源模型综合评分第一。

MinerU2有效破解“三大挑战”实现能力跃迁,主要源于三大核心技术突破:
全尺寸、真高清:传统模型在处理图像时,往往需要裁剪或缩放,这会导致关键细节的丢失。MinerU2独创了原生高分辨率视觉技术 (Native-Res ViT),可直接处理原始高清图像,无论是公式中的小角标,还是财务报表中的密集数字,都能被清晰、完整地解析出来。
小模型、大能量:MinerU2采用的模型参数仅为0.9B,可在消费级显卡单卡上流畅运行,而性能比肩72B参数的大模型。助力用户以更低的部署成本支持更广泛的应用。
深优化、高性能:通过深度集成SGLang等业界前沿的推理优化技术,MinerU2实现了极致的低延迟和高并发处理能力,可满足单份文档的快速响应以及海量文档的批量处理的要求。
凭借上述技术突破,MinerU2实现了对复杂文档元素的高精度解析。在精准识别各类版面、表格的基础上,MinerU2首次将解析场景延伸至科学数据领域,能高精度提取数学、物理等专业公式,以及化学分子式、化学反应等科学符号,补齐了AI-Ready数据的“最后一公里”,加速推进科学智能发展。MinerU2也是『书生』科学多模态大模型Intern-S1开源工具链中的重要一环。


助力AI-Ready数据自由,面向产业应用赋能
MinerU在设计之初,就以“开放共享”为指导理念,致力于打破AI技术研发与产业应用之间的壁垒,让异构数据处理能力触手可及,让高质量数据不再受困于各类文档,而是成为AI-Ready数据面向全产业赋能。
在服务形式方面,MinerU提供多样化的部署与使用形态,包括开源本地部署、桌面客户端/网页端、在线API接口服务以及MCP企业级服务,全面适配主流AI开发/使用平台如Dify、CherryStudio、Sider与ModelWhale等。凭借精准的解析能力及广泛的兼容性,MinerU深受用户青睐,多次蝉联GitHub平台的Python Trending榜首,累计获得超4万星标。
在产业落地方面,以与华为合作为例,MinerU通过深度对接昇腾AI-910B平台,将单页文档处理时间率从2分钟压缩至2秒,效率提升达60倍。目前,MinerU的用户包括头部央企、科技企业、金融机构,以及顶尖高校等。
为了进一步释放MinerU2在科学数据领域的能力,研究团队将它应用于『书生』科学发现平台Intern-Discovery、AI地球科学家智能体系统EarthLink平台中,为用户提供文档解析服务。在Intern-Discovery中,其内置的论文元分析模块可利用MinerU2进行深度文档解析与信息提取,为科研人员生成高质量数据表格与分析报告,提升文献处理效率。在EarthLink中,MinerU2文档解析工具则能够智能解析科学实验计划,为科学家提供无需编程的气候数据分析与建模能力,高效解决大数据处理难题,让其专注于科学探索与发现。




