智谱开源轻量级OCR模型GLM-OCR,支持高并发与边缘部署

科技区角 2026-02-03 10:30

【科技纵览】2月3日,人工智能企业智谱正式对外发布并开源其最新光学字符识别模型GLM-OCR。该模型参数规模仅为0.9B,具备高度轻量化特性,兼容vLLM、SGLang及Ollama等多种主流推理框架,显著降低部署门槛。

据官方披露,GLM-OCR在公式识别、表格解析与信息抽取等关键任务的多个权威基准测试中均达到当前开源领域的最优水平(SOTA)。模型特别针对手写文字、结构复杂的表格、编程代码文档、印章图像以及多语言混合排版等高难度场景进行了专项优化。

在处理效率方面,该模型对PDF文档的平均吞吐能力达每秒1.86页。若通过API调用,其计费标准为0.2元/百万Tokens。架构上,GLM-OCR采用“编码器-解码器”设计,集成智谱自研的CogViT视觉编码模块,并实施“版面分析→并行识别”的两阶段处理流程,兼顾精度与速度。

目前,完整的SDK与配套推理工具链已同步开源,适用于对延迟敏感或资源受限的边缘计算环境,亦可支撑高并发业务需求。此举标志着OCR技术正加速向轻量化、高精度与全场景适配演进,有望推动智能文档处理在金融、政务、教育等行业的规模化落地。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
智谱发布开源轻量级大模型GLM-4.7-Flash,聚焦高效部署与多场景应用
真没招了!Claude撞碎创业梦,华人博士开源逆袭
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源
刚刚,马斯克开源 𝕏 平台推荐算法
英伟达发布并开源Alpamayo:自动驾驶终于开始讲道理了|甲子光年
百度开源全新OCR模型PaddleOCR-VL-1.5,性能超越DeepSeek-OCR2
2025年AI十大事件:DeepSeek开源炸场,谷歌绝地反击,独角兽扎堆IPO
刚刚,谷歌DeepMind登Nature封面!人类40亿年生命代码「开源」了
蚂蚁灵波开源世界模型LingBot-World,交互式长视频生成能力对标Genie 3
蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号