智谱开源轻量级OCR模型GLM-OCR,支持高并发与边缘部署

科技区角 2026-02-03 10:30

【科技纵览】2月3日,人工智能企业智谱正式对外发布并开源其最新光学字符识别模型GLM-OCR。该模型参数规模仅为0.9B,具备高度轻量化特性,兼容vLLM、SGLang及Ollama等多种主流推理框架,显著降低部署门槛。

据官方披露,GLM-OCR在公式识别、表格解析与信息抽取等关键任务的多个权威基准测试中均达到当前开源领域的最优水平(SOTA)。模型特别针对手写文字、结构复杂的表格、编程代码文档、印章图像以及多语言混合排版等高难度场景进行了专项优化。

在处理效率方面,该模型对PDF文档的平均吞吐能力达每秒1.86页。若通过API调用,其计费标准为0.2元/百万Tokens。架构上,GLM-OCR采用“编码器-解码器”设计,集成智谱自研的CogViT视觉编码模块,并实施“版面分析→并行识别”的两阶段处理流程,兼顾精度与速度。

目前,完整的SDK与配套推理工具链已同步开源,适用于对延迟敏感或资源受限的边缘计算环境,亦可支撑高并发业务需求。此举标志着OCR技术正加速向轻量化、高精度与全场景适配演进,有望推动智能文档处理在金融、政务、教育等行业的规模化落地。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
想入局VLA却不知从何下手?NTU&中大开源VLANeXt:从12个维度系统解析VLA模型设计空间
不会拍照有招了!北大彭宇新团队开源首个美学指导大模型Venus,帮你拍好照|CVPR 2026
香港RISC-V联盟正式成立,产学研投跨界协同,赋能开源芯片生态,建立国际交流门户与场景应用枢纽
3倍吞吐量、访存减至1/10!蚂蚁甩出两大万亿参数开源模型,背后架构成关键
UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!
阶跃星辰全链路开源Step 3.5 Flash,Agent专用大模型登顶多平台榜单
主打一个快!腾讯开源0.3B端侧模型,手机耳机都能跑
今日看点:英伟达将推智能体开源平台NemoClaw;苹果推迟智能家用显示器发布,等待新版Siri
[人物] 梓瑶:从开源爱好者到 RISC-V SoC Maintainer 的破界之路
现象级开源AI助手Clawdbot三度更名定为OpenClaw,社区生态与安全挑战并存
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号