python爬虫 tensseroce的安装

zoukankan html css js c++ java

python爬虫 tensseroce的安装

python爬虫 tensseroce的安装

简介

在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用OCR来识别

OCR

OCR,光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则的字符，这些字符确实是由字符稍加扭曲变换得到的内容。
我们可以使用OCR技术将其转化为电子文本，然后爬虫将识别结果提交给服务器，便可以达到自动识别验证码的过程。
tesserocr是Python的一个OCR识别库，但其实是对tensseract做的一层Python API封装，所以他的核心是tensseract。因此，在安装tesserocr之前，我们需要县安装tesseract.

Ubuntu 安装

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

接着我们查看一下其支持的语言：

tesseract --list-langs
运行结果
List of available languages (2):
eng
osd
结果显示它只支持集中语言，如果向安装多国语言，阿訇i需要安装语言包，官方叫做tessdata
在Ubantu系统的迁移命令如下
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata
这样就可以将下载下来的语言包全部安装了
这时我们重新运行列出语言的命令：
tesseract --list-langs
结果如下:

可以发现，这里列出的语言就多了很多，比如chi_sim就代表简体中文，这就证明语言包安装成共了
接下来再安装tesserocr即可，这里直接使用pip安装
pip3 install tesserocr pillow

查看全文

相关阅读:
[dubbo实战] dubbo+zookeeper伪集群搭建（转）
[Dubbo实战]dubbo + zookeeper + spring 实战（转）
DUBBO本地搭建及小案例（转）
【Dubbo实战】 Dubbo+Zookeeper+Spring整合应用篇-Dubbo基于Zookeeper实现分布式服务（转）
Quartz集成springMVC 的方案二（持久化任务、集群和分布式）
【Quartz】Quartz的搭建、应用（单独使用Quartz）
Javascript判断Crontab表达式是否合法
 给Java程序员的几条建议
 使用maven编译Java项目
 使用Docker运行Java Web应用

原文地址：https://www.cnblogs.com/lyhLive/p/13868232.html

python爬虫 tensseroce的安装

python爬虫 tensseroce的安装

简介

OCR

Ubuntu 安装

接着我们查看一下其支持的语言：