一、python验证码识别库安装
要安装pytesseract库,必须先安装其依赖的PIL及tesseract-ocr,其中PIL为图像处理库,而后面的tesseract-ocr则为google的ocr识别引擎。
1、安装Pillow
在PIL上纠结了好久,装了各种问题....于是发现还有一个库叫Pillow。使用方法基本和PIL没有什么区别。于是用yum命令进行安装。
2、安装tesseract-ocr 下载地址:https://github.com/tesseract-ocr/tesseract/releases
这货也是折腾了好一阵。因为yum上找不到。而且依赖蛮多的。于是这里又耗上一段时间。
3、安装leptonica
tesseract依赖于leptonica,所以首先要下载安装leptonica
地址:https://github.com/DanBloomberg/leptonica/releases
第一步:tar zxvf leptonica-1.73.tar.gz
第二步:cd leptonica-1.73
第三步:./configure --prefix=/usr/local/leptonica
第四步:make
第五步:make install
安装完成之后,配置环境变量,
vim /etc/bash.bashrc
在文件末尾,添加环境变量的配置
PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/leptonica/lib/pkgconfig
export PKG_CONFIG_PATH
CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/leptonica/
export CPLUS_INCLUDE_PATH
C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export C_INCLUDE_PATH
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/leptonica/lib
export LD_LIBRARY_PATH
LIBRARY_PATH=$LIBRARY_PATH:/usr/local/leptonica/lib
export LIBRARY_PATH
source /etc/bash.bashrc
vim /etc/ld.so.conf
在文件末尾,添加
/usr/local/leptonica/lib
source /etc/ld.so.conf
(这步我操作失败了。。总是添加不进去,但不影响后续操作)
4、pytesseract安装
地址:https://github.com/tesseract-ocr/tesseract
第一步:unzip tesseract
第二步:cd tesseract
第三步:./autogen.sh 如果不报错
第四步:LIBLEPT_HEADERSDIR=/usr/local/leptonica/include/leptonica ./configure --prefix=/usr/local/tesseract --with-extra-libraries=/usr/local/leptonica/lib 【注意:tesseract依赖于leptonica】
第五步:make
第六步:make install
第七步:make training
第八步: sudo make training-install 【注意:是training-install,不是 training install】
安装完后
添加环境变量PATH,否则,需要每次到安装路径运行。
第九步:vim /etc/bash.bashrc,末尾添加
PATH=$PATH:/usr/local/tesseract/bin
export PATH
第十步:source /etc/bash.bashrc
最重要一步。。这时候测试会发现缺少一个文件eng.traineddata
地址:http://download.csdn.net/detail/bh_binghu/8586219
tesseract-ocr所需要的英文数据,在运行pytesseract报错:Error opening data file /usr/local/share/tessdata/eng.traineddata 解决办法,将其中的eng.traineddata复制到/usr/local/share/tessdata/
终于。。