GLM-OCR是什么
glm-ocr 是智谱ai推出的开源轻量级多模态ocr模型,仅含0.9b参数,在 omnidocbench v1.5 榜单中以94.6分的成绩刷新sota纪录。该模型基于glm-v架构构建,融合自研cogvit视觉编码器与精简跨模态连接模块,创新引入多token预测损失(mtp)及端到端强化学习训练范式,在手写文本、嵌套表格、代码片段、印章图像、多语言混排等高难度任务中展现出领先性能。支持html表格与json结构化输出,实测推理速度达1.86页/秒,全面兼容vllm、sglang与ollama等主流推理框架,广泛适用于文档智能解析、票据信息抽取、rag数据预处理等实际业务场景。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GLM-OCR的核心能力
- 全类型文本识别:适配照片、截图、扫描件及PDF文档,可准确识别印刷体、手写体、印章文字、程序代码等多样化文本形态。
- 高保真表格理解:深度解析合并单元格、跨行表头、嵌套结构等复杂表格逻辑,原生输出标准HTML代码,免除人工重排版。
- 结构化字段抽取:针对身份证、银行卡、发票、报销单等卡证票据,自动定位并提取关键字段,生成规范JSON格式,便于快速集成至业务系统。
- 专业内容识别:对数学公式、化学方程式、各类编程语言代码具备高精度识别能力,满足科研与开发场景需求。
- 多语言与特殊排版支持:支持竖排中文、阿拉伯文、日文、韩文等多语种混排,以及图文穿插、旋转、倾斜等非标准版式。
- 规模化文档处理:支持并发批量处理海量文档,输出统一结构化结果,为RAG构建高质量、低噪声的语义数据底座。
GLM-OCR的技术实现
- 整体架构设计:延续GLM-V系列经典“编码器-解码器”范式,由三大部分构成:视觉端的CogViT编码器(约400M参数)、轻量化跨模态桥接层,以及语言端的GLM-0.5B解码器。
- 视觉特征建模:采用智谱自主研发的CogViT视觉架构,依托数十亿图文对数据,结合CLIP风格对比学习进行大规模预训练,显著提升对多栏布局、图文交织、文字旋转等复杂版面的理解能力。
- 跨模态信息对齐:设计低开销高效率的连接层,融合SwiGLU非线性激活与4倍空间下采样策略,精准保留关键视觉Token,实现高密度语义信息向语言解码器的高效映射。
- 训练机制创新:首次在OCR领域系统应用多Token预测损失(MTP),通过同步预测多个后续Token增强梯度信号强度;叠加持续稳定的全任务强化学习微调,显著提升模型在长尾场景下的鲁棒性与泛化表现。
- 推理流程优化:采用“版面分析→并行识别”双阶段流水线:前端调用PP-DocLayout-V3完成细粒度区域划分(文本块/表格/图像/公式等),后端并行执行OCR识别,兼顾精度、稳定性与吞吐效率。
GLM-OCR的官方资源
- GitHub项目主页:https://www.php.cn/link/2d686296ea060d41b2c67502ec3c1f39
- HuggingFace模型页面:https://www.php.cn/link/e2c9342d0e670ec1cb3997d3c4427d83
- 在线交互体验平台:https://www.php.cn/link/10ab26922e2648bd3f79f8f8631af7cf
GLM-OCR的典型应用
- 教育与科研领域:精准识别手写课堂笔记、学术论文图表、教材扫描页及多语种文献,支持复杂公式与参考文献结构化解析,加速知识沉淀与研究复现。
- 企业数字化办公:自动处理合同条款、差旅发票、审批单据、会议记录等日常文档,实现纸质资料一键转数字档案,大幅提升行政与法务协同效率。
- 金融与保险行业:高效提取身份证、银行卡、电子保单、银行回单中的结构化字段,输出标准化JSON,直连风控、核保、理赔等核心系统,降低人工录入误差与合规风险。
- 物流与跨境通关:快速识别提单、报关单、装箱清单、原产地证等进出口单据,准确抓取品名、数量、金额、收发货人等关键信息,缩短清关周期与结算时延。
- 软件工程实践:稳定识别IDE截图、API文档、技术白皮书、错误日志等开发者常用材料,覆盖Python、Java、C++、SQL等多种语言,助力代码知识库建设与故障排查提效。










