先下载tesseract
网址:https://digi.bib.uni-mannheim.de/tesseract/
里面有各种.exe下载文件,其中带dev的是开发版本,不带dev的是稳定版本,我们选一个稳定版本下载即可
下载好之后直接安装就可以
这一步可以选择支持的语言包,后面一直next就可以
为了在python中可以使用tesseract功能,使用pip安装pytesseract,pillow,在cmd里打以下命令就可以,如果有错误可能是pip没更新到最新的版本
pip install --upgrade pip pip install pytesseract pip install pillow
然后配置tesseract的环境变量,在path的系统变量中新建一项
把Tesseract—OCR这个安装目录放在这个环境变量下
然后再新建一个系统变量,放的是tessdata的目录
这样就配置好了
然后在命令行输入以下命令,查看是否配置成功
出现版本信息就表明环境变量配置成功
然后就可以开始识别了
import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = r'E:\Tesseract-OCR\tesseract.exe'#这个放上自己安装的exe的路径就可以 tessdata_dir_config = r'--tessdata-dir "E:\Tesseract-OCR\tessdata"'#这个也是自己安装的路径,这个tessdata也在那个安装目录下 image=Image.open(r"C:\Users\jkx\Desktop\misc2.png") #图片路径 code = pytesseract.image_to_string(image, config=tessdata_dir_config) print(code)
前面的r的意思是让后面的路径识别为字符,防止出现把\当成转义符的问题
或者是在命令行输入以下命令
识别成功后,它会自动生成misc2.txt的文件
中间的是图片的路径