使用python+selenium做验证码识别 - 走看看

zoukankan html css js c++ java

使用python+selenium做验证码识别

基本步骤：

截取定位验证码-》使用image的crop函数，再次截取需要的区域-》保存截下来的区域进行打码time-》图像加强，二值化-》增强对比度-》输出验证码

通过PIL+pytesseract+Tesseract-OCR实现验证码的识别

PIL为Python Imaging Library。（PIL第三方库安装：pip install PIL）。Image类是PIL库中一个非常重要的类，通过这个类来创建实例可以有直接载入图像文件，读取处理过的图像和通过抓取的方法得到的图像。

Tesseract:开源的OCR识别引擎。并不能直接在python中使用，需要使用python的封装类pytesseract。

Python-tesseract是光学字符识别Tesseract OCR引擎的Python封装类。能够读取任何常规的图片文件(JPG, GIF ,PNG , TIFF等)并解码成可读的语言。

识别步骤如下：

1、安装PIL （下载.exe文件执行安装）

2、安装Tesseract （下载.exe文件执行安装）

3、安装pytesseract (通过pip installpytesseract安装)

注意：C:Python27Libsite-packagespytesseractpytesseract.py文件中，Tesseract_cmd文件路径，需改成安装路径，否则运行时会报Tesseract路径问题。如下：

识别成功验证码

查看全文

相关阅读:
SpringBoot项目maven 打包时跳过测试
 scss 学习笔记
 万事都源于一个字：缘
 H To begin or not to begin 题解(思维)
条件题解(bitset优化floyd)
Dima and Salad 题解(01背包变形)
P1052 [NOIP2005 提高组] 过河题解(dp+数论优化)
A Simple Math Problem 题解(数论)
威佐夫博弈
 P3951 [NOIP2017 提高组] 小凯的疑惑题解(数论/结论题)

原文地址：https://www.cnblogs.com/youlanda/p/10978810.html

Copyright © 2011-2022 走看看