腾讯混元OCR模型开源！参数1B性能达SOTA，多场景应用超强大-人工智能-PHP中文网

腾讯混元OCR模型开源！参数1B性能达SOTA，多场景应用超强大

星夢妙者

发布： 2025-12-14 14:18:02

原创

921人浏览过

近日，腾讯混元正式发布全新开源ocr模型——hunyuanocr。该模型参数量仅为10亿（1b），基于混元原生多模态架构构建，在多项主流ocr应用评测榜单中斩获sota（state-of-the-art）成绩。此次发布标志着ocr技术迎来一次关键性突破：在保持极致轻量化的同时，实现了前所未有的高性能表现，也从根本上重塑了ocr模型的设计范式。

HunyuanOCR是一款专为端到端OCR任务深度优化的混元原生多模态专家模型，整体架构由三大核心模块组成：原生分辨率视频编码器、自适应视觉适配器与轻量化混元语言模型。依托混元大模型“端到端”的原生设计理念，HunyuanOCR可在单次前向推理中直接输出最优解析结果，无需传统OCR流程中的多阶段串联（如检测→识别→结构化）。区别于当前多数开源OCR系统或专家模型，其训练与推理全程贯彻全端到端范式，并融合大规模真实场景数据及在线强化学习策略，显著提升了模型在复杂现实任务中的鲁棒性与泛化能力。

在性能方面，HunyuanOCR在多个权威基准测试中刷新纪录：

在面向复杂文档理解的综合性评测集 OmniDocBench 中，以 94.1分 的绝对优势登顶榜首，超越包括谷歌Gemini-3 Pro在内的诸多前沿多模态大模型；
针对文字检测与识别能力，团队构建覆盖9大高频场景（文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频）的专用评测基准，HunyuanOCR在全部类别中均大幅领先同类开源模型及主流商业OCR服务；
在通用OCR能力综合榜单 OCRBench 上，总得分达 860分，成为当前所有参数量低于3B的模型中（含通用视觉理解模型）的最强性能保持者；
在小语种文档翻译方向，支持14种高频小语种直译为中文或英文，并在 ICDAR 2025 端到端文档翻译挑战赛的小模型赛道中荣膺冠军。

从实际应用维度看，HunyuanOCR全面支持多语种复杂文档解析，兼具高精度文字检测、识别与结构化能力，可灵活服务于票据字段提取、视频字幕自动抽取、移动端拍照翻译等多样化落地场景。

所谓复杂文档解析，是指将多语种文档扫描件或拍摄图像进行高质量电子化处理：按自然阅读顺序组织文本内容；数学公式以LaTeX格式精准还原；复杂表格则采用HTML结构化表达；对于身份证、营业执照、发票等常见卡证与票据，系统能自动定位并结构化输出关键字段（如姓名、地址、单位、金额等），统一采用标准JSON格式；视频字幕支持单语及双语同步抽取；拍照翻译功能则覆盖上述全部14种小语种与中英文互译，具体包括：德语、西班牙语、土耳其语、意大利语、俄语、法语、葡萄牙语、阿拉伯语、泰语、越南语、印尼语、马来语、日语、韩语 → 中/英，以及中英双向互译。

在文字检测与识别层面，模型针对九大类场景进行了精细化建模与专项优化：