python基于pytesseract的orc文字识别

前言

21年写过手机端的,当时是针对app的字体。这次难度加大,是手写的字体,在网上找了一些免费的根本识别不出来。想到pytesseract是免费还可以自己训练的,再来试试。

安装tesseract

最新版现在还是4.0的,官网我居然只看到3.x的版本。这个下载地址非官方。
下载后直接安装,安装的时候顺便安装个简体中文语言包。
20231013-102521-LS.png
20231013-102536-kK.png

配置环境变量

默认安装路径为C:\Program Files (x86)\Tesseract-OCR,是没有配置环境变量的。
配置好后,运行tesseract -v,验证版本。tesseract 4.00.00alpha,4.0内部测试版,难怪官网没有4.0的安装包下载。
20231013-102804-EB.png

下载中文包

github下载
只需要中文简体这两个文件
20231013-111309-Q2.png
然后复制到这个目录中
20231013-111401-tz.png

安装java jdk

20231013-104712-3G.png
官网下载安装包安装。

安装jTessBoxEditor

github里面安装jTessBoxEditor

支持中文语言包识别训练

1
tesseract 1.tif 1 -l chi_sim+eng batch.nochop makebox

不带任何语言包识别

1
tesseract 1.tif 1 batch.nochop makebox

结论

tesseract不适合手写,手写还是用PaddleOCR这个库。一个个改意义不大。
20231013-115624-gq.png