python 简单图像识别--验证码

zoukankan html css js c++ java

python 简单图像识别--验证码
python 简单图像识别--验证码

记录下，准备工作安装过程很是麻烦。

首先库：pytesseract，image，tesseract，PIL

windows安装PIL，直接exe进行安装更方便（https://files.cnblogs.com/files/Oran9e/PILwin64.zip）（https://files.cnblogs.com/files/Oran9e/PILwin32.zip）

安装 image：pip install image

安装 pytesseract：pip install pytesseract

安装 tesseract：pip install tesseract (安装 tesseracr，这里是个坑，需要安装到C盘里C:Program Files (x86)Tesseract-OCR，也就是默认路径，不然运行 python 代码的时候调用不了 tesseract.exe )

修改 tesseract.py 代码：pythonLibsite-packagespytesseract esseract.py

tesseract_cmd 改成 tesseract.exe的路径，进行调用。
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
准备完上面的工作，基本上就可以进行简单的验证码识别了。

代码：
#coding=utf-8 from PIL import Image import pytesseract image = Image.open('2.jpg') orange = pytesseract.image_to_string(image) print orange
下篇文章将会写个自动识别验证码，实现自动登陆的小脚本。

python 简单图像识别--验证码Ⅱ

在实现自动登陆的时候，我们首先需要做到识别验证码，上篇文章讲到如何识别验证码（http://www.cnblogs.com/Oran9e/p/8799194.html）。

一般情况下，我们见到的验证码是服务器动态生成的，这个时候我们要做的就是把验证码下载到本地，然后就可以像上篇文章一样进行识别，为自动登陆打下坚实的基础。

下面就记下困扰我两天的问题，把坑说明一下。

本来是想把 cnvd 的验证码进行下载识别（http://www.cnvd.org.cn/jcaptcha/jpeg/imageCaptcha?id=1523686908）

但是 cnvd 的网站是有反爬虫机制的，打印下 get 到的内容，是<script>***</script> js 代码，因此我认为是不能直接下载的，当然也存在右键另存为了哈。

对比下两个链接打印出来的内容（http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/vcode.php）

上图可以看到，直接打印的内容是验证码图片的内容，因此这个时候我们可以进行下载，下载的时候是以二进制的方式展现，先保存到本地。

代码如下：
#coding=utf-8 from PIL import Image import pytesseract import requests url = 'http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/vcode.php' #验证码URL headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0"} #headers url_get = requests.request("GET",url,headers=headers,verify=False) #发送请求 img = url_get.content #返回的数据以二进制的方式展现 with open('C:UserswwDesktopimageCaptcha.jpg',"wb") as f: #选择保存图片路径和格式 f.write(img) #保存 image1 = Image.open("C:UserswwDesktopimageCaptcha.jpg") #Image模块打开图片 output = pytesseract.image_to_string(image1) #识别验证码 print str(output) #打印验证码
当然，下载验证码也不止上面的一种方式，也可以通过截图保存验证码进行识别。有兴趣可以试试。

先记录到这里，争取晚上写出识别验证码自动登陆的脚本。

python 简单图像识别--验证码Ⅲ

实现自动登陆网站

登录学校图书馆管理系统为例，做一个简单的例子。python识别简单的没有干扰的纯数字验证码还是可以的，但是识别字母数字再加上干扰因素，误报率很高，因此这个我是采用”人工识别“，人工输入。

首先得明白cookie的作用，cookie是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。因此我们需要用Cookielib模块来保持网站的cookie。

登录学校图书馆管理系统登陆（http://122.207.221.227:8080/opac/login），验证码（http://122.207.221.227:8080/kaptcha/goldlib）

可以发现这个验证码是动态更新的每次打开都不一样，一般这种验证码和cookie是同步的。想识别验证码肯定是吃力不讨好的事，因此我们的思路是首先访问验证码页面，保存验证码、获取cookie用于登录，然后再直接向登录地址post数据。

先分析登录页面需要post的request和header信息

从中可以看出需要 post 的url并不是访问的页面，而是(http://122.207.221.227:8080/pages/include/checklogin.jsp)

其中需要提交的表单数据中 username 和 password 分别用户名和密码。

分析了上面的因素，下面就直接贴出代码。
#coding=utf-8 from PIL import Image import pytesseract import urllib2 import urllib import PIL.ImageOps import requests import cookielib import re import sys '''图书馆登陆''' reload(sys) sys.setdefaultencoding("utf-8") #防止中文报错 url = 'http://122.207.221.227:8080/pages/include/checklogin.jsp' capchaurl = 'http://122.207.221.227:8080/kaptcha/0.5458022691509324' cookie = cookielib.CookieJar() # 将cookies绑定到一个opener cookie由cookielib自动管理 handler = urllib2.HTTPCookieProcessor(cookie) opener = urllib2.build_opener(handler) username='xxxxx' password='xxxxx' #用户名，密码 callNo = 'callNo' picture = opener.open(capchaurl).read() # 用openr访问验证码地址,获取cookie local = open('C:UserswwDesktopgoldlib.jpg',"wb") # 保存验证码到本地 local.write(picture) local.close() secrecode = raw_input('yanzhengma: ') # 输入验证码 postData = { 'username': username, 'password': password, 'loginType': callNo, 'kaptcha': secrecode, } # 抓包信息构造表单 headers = { 'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2', 'Connection': 'keep-alive', 'Content-Length': '64', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': '122.207.221.227:8080', 'Referer': 'http://122.207.221.227:8080/opac/login', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0', 'X-Requested-With': 'XMLHttpRequest', } # 根据抓包信息构造headers data = urllib.urlencode(postData) # 生成post数据 ?key1=value1&key2=value2的形式 request = urllib2.Request(url,data,headers) #构造request请求 try: response = opener.open(request) result = response.read().decode('utf-8') print result except urllib2.HTTPError, e: print e.code
演示结果

任重而道远！

转载请注明链接（http://www.cnblogs.com/Oran9e/p/8847313.html）。
查看全文

相关阅读:
给目录下所有文件与文件夹加权限
 应用程序无法正常启动0xc000007b解决方法
 文件关联修复方法
 xz压缩文件方法
 sharding-jdbc实现水平分库 + 水平分表
 Sharding-jdbc实现水平分表
 批量删除Maven本地仓库中未下载完成的jar包（不完整的jar包）
分库分表
 尚硅谷 ShardingSphere
SpringBoot 整合ActiveMQ

原文地址：https://www.cnblogs.com/Oran9e/p/8847313.html