0

0

印地语-英语OCR

P粉084495128

P粉084495128

发布时间:2025-08-01 14:05:31

|

792人浏览过

|

来源于php中文网

原创

本文介绍利用PaddleOCR训练调优印地语-英语OCR模型的过程。先配置环境、准备检测和识别数据,再训练检测模型并通过自蒸馏调优,使H-mean提升约15.2%;训练识别模型并以enhanced_ctc调优,准确率提升2%左右。最后将模型转成inference和serving模型,完成部署与服务请求。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

印地语-英语ocr - php中文网

印地语-英语OCR训练与调优

  • 有些公司在海外,比如印度有诸多业务,有时需要对印度网上的图片信息进行提取,而文字是最有用的信息,方便后续的分析。印度的官方语言包括英语和印地语,因此图片上经常会出现印地语和英语混杂出现的情况。这时就需要有能同时检测和识别印地语-英语的模型。PaddleOCR提供了一系列套件能快速训练一个检测模型和识别模型,并借助paddle serving进行快速部署。
  • 本案例采集并标注了202张图像用于检测模型训练和验证,生成了10000张图像用于识别模型训练,标注了138张真实场景下的图像用于识别模型验证。以下文档包含了检测模型训练和调优、识别模型训练和调优、模型推理部署三个部分。
  • 所有训练好的模型和配置均在output文件夹里

1. 环境配置以及数据准备

1.1 环境配置

运行下方代码,拉取PaddleOCR以及安装PaddleOCR的依赖库。

import os
import sys# 下载代码os.chdir("/home/aistudio/work/")
!git clone https://gitee.com/paddlepaddle/PaddleOCR.git# 切换工作目录os.chdir("/home/aistudio/PaddleOCR/")# 安装依赖!pip install -U pip
!pip install -r requirements.txt
       

1.2 数据准备

  • 检测数据已开源:https://aistudio.baidu.com/aistudio/datasetdetail/124124015
  • 识别数据已开源:https://aistudio.baidu.com/aistudio/datasetdetail/124124014
  • 当前项目已默认加载这两个数据集,运行下方代码解压数据集到work文件夹下。
# 创建文件夹!mkdir ~/work/detection
!mkdir ~/work/recognition# 复制和解压检测数据!cp ~/data/data124124015/train.txt ~/work/detection
!cp ~/data/data124124015/test.txt ~/work/detection
!tar xf ~/data/data124124014/imgs.tar -C ~/work/detection# 复制和解压识别数据!cp ~/data/data124124014/train.txt ~/work/recognition
!cp ~/data/data124124014/test.txt ~/work/recognition
!cp ~/data/data124124014/hindi.txt ~/work/recognition
!tar xf ~/data/data124124014/train_img.tar -C ~/work/recognition
!tar xf ~/data/data124124014/test_img.tar -C ~/work/recognition
   

2. 检测模型训练和调优

2.1 预训练模型准备

为了加速训练,采用ppocr的原始超轻量模型。运行下方代码准备预训练模型。

import os
os.chdir("/home/aistudio/work/PaddleOCR/")# 创建预训练模型目录!mkdir pretrain_models
os.chdir("/home/aistudio/work/PaddleOCR/pretrain_models")# 下载并解压预训练模型!wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_det_train.tar && tar xf ch_ppocr_mobile_v2.0_det_train.tar
       

2.2 模型训练

先修改./configs/det/ch_ppocr_v2.0/ch_det_mv3_db_v2.0.yml配置文件,主要包括预训练模型路径、数据集路径两部分,此外还有模型验证步数、训练图像尺寸改变、验证图像尺寸改变等。(本项目中配置文件已修改)

Global:
  └─save_model_dir: ./output/ch_db_mv3_original/
  └─eval_batch_step: [0, 18]
  └─pretrained_model: ./pretrain_models/ch_ppocr_mobile_v2.0_det_train/best_accuracy
Train:
  └─dataset
	└─data_dir: /home/aistudio/work/detection/imgs
	└─label_file_list: /home/aistudio/work/detection/train.txt
    └─transforms:
      └─EastRandomCropData:
        └─size: [640, 640]  # 改小尺寸加快训练Eval:
  └─dataset
    └─data_dir:/home/aistudio/work/detection/imgs
	└─label_file_list: /home/aistudio/work/detection/test.txt
    └─transforms:
      └─DetResizeForTest:
        └─image_shape: [1280, 736]  # 图像大多是竖着的,因此改成高>宽
       

然后运行下方代码启动训练。

CreateWise AI
CreateWise AI

为播客创作者设计的AI创作工具,AI自动去口癖、提交亮点和生成Show notes、标题等

下载
!python3 tools/train.py -c ./configs/det/ch_ppocr_v2.0/ch_det_mv3_db_v2.0.yml
       

2.3 模型调优

模型调优采用自蒸馏算法,修改./configs/det/ch_PP-OCRv2/ch_PP-OCRv2_det_dml.yml配置文件,学生1加载2.2训练好的模型,学生2加载预训练模型,其余配置跟2.2保持一致。

Global:
  └─save_model_dir: ./output/ch_db_mv3_dml/
  └─eval_batch_step: [0, 36]
Architecture:
  └─Models:
    └─Student:
      └─pretrained: ./output/ch_db_mv3_original/best_accuracy
    └─Student2:
      └─pretrained: ./pretrain_models/ch_ppocr_mobile_v2.0_det_train/best_accuracy
       

运行下方代码启动训练

!python3 tools/train.py -c ./configs/det/ch_PP-OCRv2/ch_PP-OCRv2_det_dml.yml
       

2.4 测试集评估

分别测试预训练模型、微调后模型和调优后模型的Precision、Recall、H-mean(F-Score)指标。

# 原始模型!python3 tools/eval.py -c configs/det/ch_ppocr_v2.0/ch_det_mv3_db_v2.0.yml  -o Global.checkpoints="./pretrain_models/ch_ppocr_mobile_v2.0_det_train/best_accuracy"# Finetune后模型!python3 tools/eval.py -c configs/det/ch_ppocr_v2.0/ch_det_mv3_db_v2.0.yml  -o Global.checkpoints="./output/ch_db_mv3_original/best_accuracy"# 调优后模型!python3 tools/eval.py -c configs/det/ch_PP-OCRv2/ch_PP-OCRv2_det_dml.yml  -o Global.checkpoints="./output/ch_db_mv3_dml/best_accuracy"
       

获得结果如下,经过finetune后的模型在综合指标H-mean上比原先提升15%左右,经过蒸馏调优后能再提升0.2%左右。

Model Precision Recall H-mean
PP-OCR mobile 0.6996 0.8451 0.7655
PP-OCR mobile finetune 0.9048 0.9248 0.9147
PP-OCR mobile distill 0.9087 0.9248 0.9167

3. 识别模型训练和调优

3.1 预训练模型准备

为了加速训练,采用ppocr的梵文预训练模型来加速训练。运行下方代码准备预训练模型。

import os
os.chdir("/home/aistudio/work/PaddleOCR/pretrain_models")# 下载并解压预训练模型!wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/devanagari_ppocr_mobile_v2.0_rec_train.tar && tar xf devanagari_ppocr_mobile_v2.0_rec_train.tar
       

3.2 模型训练

先修改./configs/rec/multi_language/rec_devanagari_lite_train.yml配置文件,主要包括预训练模型路径、数据集路径等。(本项目中配置文件已修改)

Global:
  └─save_model_dir: ./output/rec_hindi_en
  └─eval_batch_step: [0, 120]
  └─save_epoch_step: 30
  └─pretrained_model: ./pretrain_models/ch_ppocr_mobile_v2.0_det_train/best_accuracy
  └─character_dict_path: /home/aistudio/work/recognition/hindi.txt
  └─max_text_length: 70
  └─use_space_char: falseTrain:
  └─dataset
	└─data_dir: /home/aistudio/work/recognition/TrainImages
	└─label_file_list: /home/aistudio/work/recognition/train.txt
    └─transforms:
      └─RecAug:
        └─use_tia: false  # 不使用tia增强
Eval:
  └─dataset
    └─data_dir: /home/aistudio/work/recognition/TestImages
	└─label_file_list: /home/aistudio/work/recognition/test.txt
       

然后运行下方代码启动训练。

!python3 tools/train.py -c ./configs/rec/multi_language/rec_devanagari_lite_train.yml
       

3.3 模型调优

模型调优采用enhanced_ctc算法,增加./configs/rec/multi_language/rec_devanagari_lite_enhanced_ctc.yml配置文件,需要修改的地方如下,其余配置跟3.2保持一致。

Global:
  └─save_model_dir: ./output/rec_hindi_en_enhanced_ctc
  └─pretrained_model: ./output/rec_hindi_en/best_accuracy
  
Architecture:
  └─Head:
    └─return_feats: true
Loss:
  └─name: CombinedLoss
  └─loss_config_list:
    └─CTCLoss:
      └─use_focal_loss: false
      └─weight: 1.0
    └─CenterLoss:
      └─weight: 0.05
      └─num_classes: 176
      └─feat_dim: 96
      └─center_file_path: ./train_center.pkl
       

采用这种方法需要先生成center文件,运行下面代码生成train_center.pkl文件

!python tools/export_center.py -c ./configs/rec/multi_language/rec_devanagari_lite_train.yml -o Global.pretrained_model="./output/rec_hindi_en/best_accuracy"
       

运行下方代码启动训练

!python3 tools/train.py -c ./configs/rec/multi_language/rec_devanagari_lite_enhanced_ctc.yml
       

3.4 测试集评估

分别测试微调后模型和调优后模型的Accuracy指标。

# Finetune后模型!python3 tools/eval.py -c configs/rec/multi_language/rec_devanagari_lite_train.yml  -o Global.checkpoints="./output/rec_hindi_en/best_accuracy"# 调优后模型!python3 tools/eval.py -c configs/rec/multi_language/rec_devanagari_lite_enhanced_ctc.yml  -o Global.checkpoints="./output/rec_hindi_en_enhanced_ctc/best_accuracy"
       

获得结果如下,经过调优后性能提升2%左右。

Model Accuracy
PP-OCR mobile finetune 0.5000
PP-OCR mobile enhanced_ctc 0.5217

4. 预测部署

这里使用Paddle Serving套件进行部署。

4.1 转inference模型

# 转检测模型
!python tools/export_model.py -c configs/det/ch_PP-OCRv2/ch_PP-OCRv2_det_dml.yml  -o Global.checkpoints="./output/ch_db_mv3_dml/best_accuracy" Global.save_inference_dir="./det_model"# 转识别模型
!python tools/export_model.py -c configs/rec/multi_language/rec_devanagari_lite_enhanced_ctc.yml  -o Global.checkpoints="./output/rec_hindi_en_enhanced_ctc/best_accuracy" Global.save_inference_dir="./rec_model"
       

4.2 推理可视化

显示印地语需要专门的字体文件,该字体文件已传到"/home/aistudio/work/PaddleOCR/StyleText/fonts/hindi.ttf"上。运行下方命令可获得可视化效果。

In [16]
import osimport cv2import matplotlib.pyplot as plt# 进入PaddleOCR目录os.chdir("/home/aistudio/work/PaddleOCR/")# 运行推断程序!python tools/infer/predict_system.py \
    --image_dir="/home/aistudio/work/detection/imgs/Google_0063.jpeg" \
    --det_model_dir="./det_model/Student/" \
    --rec_model_dir="./rec_model/" \
    --rec_char_dict_path="/home/aistudio/work/recognition/hindi.txt" \
    --use_space_char=False \
    --vis_font_path="/home/aistudio/work/PaddleOCR/StyleText/fonts/hindi.ttf"# 展示推断结果img = cv2.imread("/home/aistudio/work/PaddleOCR/inference_results/Google_0063.jpeg")
plt.figure(figsize=(30, 10))
plt.imshow(img[..., ::-1])
plt.show()
       
[2022/01/06 16:23:53] root DEBUG: dt_boxes num : 6, elapse : 2.748750925064087
[2022/01/06 16:23:53] root DEBUG: rec_res num  : 6, elapse : 0.018050670623779297
[2022/01/06 16:23:53] root DEBUG: 0  Predict time of /home/aistudio/work/detection/imgs/Google_0063.jpeg: 2.771s
[2022/01/06 16:23:53] root DEBUG: बी ए समेस्टर- I पीयाू, 0.895
[2022/01/06 16:23:53] root DEBUG: प्राचीन भारत, 0.945
[2022/01/06 16:23:53] root DEBUG: का, 0.822
[2022/01/06 16:23:53] root DEBUG: इतिहास, 1.000
[2022/01/06 16:23:53] root DEBUG: Jizooड़े-तक, 0.812
[2022/01/06 16:23:53] root DEBUG: डाँ क्रांति कमार गुप्ता l डोँ मोइरंगथम प्रमोद, 0.958
[2022/01/06 16:23:53] root DEBUG: The visualized image saved in ./inference_results/Google_0063.jpeg
[2022/01/06 16:23:53] root INFO: The predict total time is 2.813556432723999
       
<Figure size 2160x720 with 1 Axes>
               

4.3 Paddle Serving环境准备

运行Paddle Serving,需要安装Paddle Serving三个安装包:paddle-serving-server、paddle-serving-client 和 paddle-serving-app,命令如下。

!wget https://paddle-serving.bj.bcebos.com/test-dev/whl/paddle_serving_server_gpu-0.7.0.post102-py3-none-any.whl
!pip install paddle_serving_server_gpu-0.7.0.post102-py3-none-any.whl

!wget https://paddle-serving.bj.bcebos.com/test-dev/whl/paddle_serving_client-0.7.0-cp37-none-any.whl
!pip install paddle_serving_client-0.7.0-cp37-none-any.whl

!wget https://paddle-serving.bj.bcebos.com/test-dev/whl/paddle_serving_app-0.7.0-py3-none-any.whl
!pip install paddle_serving_app-0.7.0-py3-none-any.whl

!rm ./*.whl
       

4.4 转serving模型

运行下方代码将inference模型转换成serving模型

# 转换检测模型!python -m paddle_serving_client.convert --dirname ./det_model/ \                                         --model_filename inference.pdmodel          \                                         --params_filename inference.pdiparams       \                                         --serving_server ./det_serving/ \                                         --serving_client ./det_client/# 转换识别模型!python -m paddle_serving_client.convert --dirname ./rec_model/ \                                         --model_filename inference.pdmodel          \                                         --params_filename inference.pdiparams       \                                         --serving_server ./rec_serving/  \                                         --serving_client ./rec_client/
       

4.5启动服务和请求服务

  1. 修改PaddleOCR/deploy/pdserving/config.yml文件。
op:
  └─det:
    └─local_service_conf:
      └─model_config: /home/aistudio/work/PaddleOCR/det_serving
  └─rec:
    └─local_service_conf:
      └─model_config: /home/aistudio/work/PaddleOCR/rec_serving
       
  1. 修改PaddleOCR/deploy/pdserving/web_service.py文件中的字体路径
class RecOp(Op):
    def init_op(self):
        self.ocr_reader = OCRReader(
            char_dict_path="/home/aistudio/work/recognition/hindi.txt")
       
  1. 运行如下命令启动服务 开启新的终端运行下列启动服务的命令。
cd PaddleOCR/deploy/pdserving/python web_service.py
       

效果如下图。印地语-英语OCR - php中文网        

  1. 在另一个终端下运行请求服务命令
cd PaddleOCR/deploy/pdserving/
python pipeline_http_client.py --image_dir "/home/aistudio/work/detection/imgs"
       

效果如下图印地语-英语OCR - php中文网        

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

46

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

51

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

171

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号