0

0

GLM-OCR— 智谱开源的轻量级多模态OCR模型

碧海醫心

碧海醫心

发布时间:2026-02-03 11:34:04

|

661人浏览过

|

来源于php中文网

原创

GLM-OCR是什么

glm-ocr 是智谱ai推出的开源轻量级多模态ocr模型,仅含0.9b参数,在 omnidocbench v1.5 榜单中以94.6分的成绩刷新sota纪录。该模型基于glm-v架构构建,融合自研cogvit视觉编码器与精简跨模态连接模块,创新引入多token预测损失(mtp)及端到端强化学习训练范式,在手写文本、嵌套表格、代码片段、印章图像、多语言混排等高难度任务中展现出领先性能。支持html表格与json结构化输出,实测推理速度达1.86页/秒,全面兼容vllm、sglang与ollama等主流推理框架,广泛适用于文档智能解析、票据信息抽取、rag数据预处理等实际业务场景。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GLM-OCR— 智谱开源的轻量级多模态OCR模型

Munch
Munch

AI营销分析工具,长视频中提取出最具吸引力的短片

下载

GLM-OCR的核心能力

  • 全类型文本识别:适配照片、截图、扫描件及PDF文档,可准确识别印刷体、手写体、印章文字、程序代码等多样化文本形态。
  • 高保真表格理解:深度解析合并单元格、跨行表头、嵌套结构等复杂表格逻辑,原生输出标准HTML代码,免除人工重排版。
  • 结构化字段抽取:针对身份证、银行卡、发票、报销单等卡证票据,自动定位并提取关键字段,生成规范JSON格式,便于快速集成至业务系统。
  • 专业内容识别:对数学公式、化学方程式、各类编程语言代码具备高精度识别能力,满足科研与开发场景需求。
  • 多语言与特殊排版支持:支持竖排中文、阿拉伯文、日文、韩文等多语种混排,以及图文穿插、旋转、倾斜等非标准版式。
  • 规模化文档处理:支持并发批量处理海量文档,输出统一结构化结果,为RAG构建高质量、低噪声的语义数据底座。

GLM-OCR的技术实现

  • 整体架构设计:延续GLM-V系列经典“编码器-解码器”范式,由三大部分构成:视觉端的CogViT编码器(约400M参数)、轻量化跨模态桥接层,以及语言端的GLM-0.5B解码器。
  • 视觉特征建模:采用智谱自主研发的CogViT视觉架构,依托数十亿图文对数据,结合CLIP风格对比学习进行大规模预训练,显著提升对多栏布局、图文交织、文字旋转等复杂版面的理解能力。
  • 跨模态信息对齐:设计低开销高效率的连接层,融合SwiGLU非线性激活与4倍空间下采样策略,精准保留关键视觉Token,实现高密度语义信息向语言解码器的高效映射。
  • 训练机制创新:首次在OCR领域系统应用多Token预测损失(MTP),通过同步预测多个后续Token增强梯度信号强度;叠加持续稳定的全任务强化学习微调,显著提升模型在长尾场景下的鲁棒性与泛化表现。
  • 推理流程优化:采用“版面分析→并行识别”双阶段流水线:前端调用PP-DocLayout-V3完成细粒度区域划分(文本块/表格/图像/公式等),后端并行执行OCR识别,兼顾精度、稳定性与吞吐效率。

GLM-OCR的官方资源

GLM-OCR的典型应用

  • 教育与科研领域:精准识别手写课堂笔记、学术论文图表、教材扫描页及多语种文献,支持复杂公式与参考文献结构化解析,加速知识沉淀与研究复现。
  • 企业数字化办公:自动处理合同条款、差旅发票、审批单据、会议记录等日常文档,实现纸质资料一键转数字档案,大幅提升行政与法务协同效率。
  • 金融与保险行业:高效提取身份证、银行卡、电子保单、银行回单中的结构化字段,输出标准化JSON,直连风控、核保、理赔等核心系统,降低人工录入误差与合规风险。
  • 物流与跨境通关:快速识别提单、报关单、装箱清单、原产地证等进出口单据,准确抓取品名、数量、金额、收发货人等关键信息,缩短清关周期与结算时延。
  • 软件工程实践:稳定识别IDE截图、API文档、技术白皮书、错误日志等开发者常用材料,覆盖Python、Java、C++、SQL等多种语言,助力代码知识库建设与故障排查提效。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中/相关合集
c语言中/相关合集

本专题整合了c语言中/的用法、含义解释。阅读专题下面的文章了解更多详细内容。

0

2026.02.03

漫蛙漫画网页版入口与正版在线阅读 漫蛙MANWA官网访问专题
漫蛙漫画网页版入口与正版在线阅读 漫蛙MANWA官网访问专题

本专题围绕漫蛙漫画(Manwa / Manwa2)官网网页版入口进行整理,涵盖漫蛙漫画官方主页访问方式、网页版在线阅读入口、台版正版漫画浏览说明及基础使用指引,帮助用户快速进入漫蛙漫画官网,稳定在线阅读正版漫画内容,避免误入非官方页面。

0

2026.02.03

Yandex官网入口与俄罗斯搜索引擎访问指南 Yandex中文登录与网页版入口
Yandex官网入口与俄罗斯搜索引擎访问指南 Yandex中文登录与网页版入口

本专题汇总了俄罗斯知名搜索引擎 Yandex 的官网入口、免登录访问地址、中文登录方法与网页版使用指南,帮助用户稳定访问 Yandex 官网,并提供一站式入口汇总。无论是登录入口还是在线搜索,用户都能快速获取最新稳定的访问链接与使用指南。

3

2026.02.03

Java 设计模式与重构实践
Java 设计模式与重构实践

本专题专注讲解 Java 中常用的设计模式,包括单例模式、工厂模式、观察者模式、策略模式等,并结合代码重构实践,帮助学习者掌握 如何运用设计模式优化代码结构,提高代码的可读性、可维护性和扩展性。通过具体示例,展示设计模式如何解决实际开发中的复杂问题。

2

2026.02.03

C# 并发与异步编程
C# 并发与异步编程

本专题系统讲解 C# 异步编程与并发控制,重点介绍 async 和 await 关键字、Task 类、线程池管理、并发数据结构、死锁与线程安全问题。通过多个实战项目,帮助学习者掌握 如何在 C# 中编写高效的异步代码,提升应用的并发性能与响应速度。

0

2026.02.03

Python 强化学习与深度Q网络(DQN)
Python 强化学习与深度Q网络(DQN)

本专题深入讲解 Python 在强化学习(Reinforcement Learning)中的应用,重点介绍 深度Q网络(DQN) 及其实现方法,涵盖 Q-learning 算法、深度学习与神经网络的结合、环境模拟与奖励机制设计、探索与利用的平衡等。通过构建一个简单的游戏AI,帮助学习者掌握 如何使用 Python 训练智能体在动态环境中作出决策。

2

2026.02.03

python end=
python end=

本专题整合了python中end=的相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.02.03

python运算符优先级
python运算符优先级

本专题整合了python运算符优先级排序、用法相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.02.03

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

1

2026.02.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号