【科技纵览】2月3日,人工智能企业智谱正式对外发布并开源其最新光学字符识别模型GLM-OCR。该模型参数规模仅为0.9B,具备高度轻量化特性,兼容vLLM、SGLang及Ollama等多种主流推理框架,显著降低部署门槛。
据官方披露,GLM-OCR在公式识别、表格解析与信息抽取等关键任务的多个权威基准测试中均达到当前开源领域的最优水平(SOTA)。模型特别针对手写文字、结构复杂的表格、编程代码文档、印章图像以及多语言混合排版等高难度场景进行了专项优化。
在处理效率方面,该模型对PDF文档的平均吞吐能力达每秒1.86页。若通过API调用,其计费标准为0.2元/百万Tokens。架构上,GLM-OCR采用“编码器-解码器”设计,集成智谱自研的CogViT视觉编码模块,并实施“版面分析→并行识别”的两阶段处理流程,兼顾精度与速度。
目前,完整的SDK与配套推理工具链已同步开源,适用于对延迟敏感或资源受限的边缘计算环境,亦可支撑高并发业务需求。此举标志着OCR技术正加速向轻量化、高精度与全场景适配演进,有望推动智能文档处理在金融、政务、教育等行业的规模化落地。
智谱开源轻量级OCR模型GLM-OCR,支持高并发与边缘部署
科技区角
2026-02-03 10:30
声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。