python基于pytesseract的orc文字识别

前言

21年写过手机端的，当时是针对app的字体。这次难度加大，是手写的字体，在网上找了一些免费的根本识别不出来。想到pytesseract是免费还可以自己训练的，再来试试。

最新版现在还是4.0的，官网我居然只看到3.x的版本。这个下载地址非官方。
下载后直接安装，安装的时候顺便安装个简体中文语言包。

默认安装路径为C:\Program Files (x86)\Tesseract-OCR，是没有配置环境变量的。
配置好后，运行tesseract -v，验证版本。tesseract 4.00.00alpha，4.0内部测试版，难怪官网没有4.0的安装包下载。

github下载
只需要中文简体这两个文件

然后复制到这个目录中

官网下载安装包安装。

github里面安装jTessBoxEditor

1	tesseract 1.tif 1 -l chi_sim+eng batch.nochop makebox

不带任何语言包识别

1	tesseract 1.tif 1 batch.nochop makebox

tesseract不适合手写，手写还是用PaddleOCR这个库。一个个改意义不大。