zoukankan      html  css  js  c++  java
  • Python爬虫连载16-OCR工具Tesseract、Scrapt初步

    一、验证码破解

    1.(上承连载15)极验

    (1)官网:http://www.geetest.com

    破解比较麻烦、可以模拟鼠标移动、一直在进化

    二、Tesseract

    1.机器视觉领域的基础软件

    2.OCR​:OpticalCharacterRecognition

    3.Tesseract​:一个OCR库,有谷歌资助

    ​安装:https://blog.csdn.net/showgea/article/details/82656515

     
    
    import pytesseract as pt
    
    import os
    
    ​
    
    # os.path()
    
    from PIL import Image
    
    #生成图片实例
    
    image = Image.open(r"C:Userslenovo1untitledimage	estOCR.jpg")
    
    #调用pytesseract,把图片转换为文字
    
    text = pt.image_to_string(image)
    
    print(text)

    三、爬虫框架Scrapy

    1.常见的爬虫框架scrapypyspidercrawley,基本都是开源的

    2.官方文档:https://docs.scrapy.org/en/latest/

    3.该框架包含如下各个部件

    (1)ScrapyEngine:神经中枢、大脑、核心

    (2)Scheduler​调度器:引擎发来的request请求,调度器需要处理,然后​交换引擎。

    (3)Downloader​下载器:把引擎发来的requests发出请求,得到response

    (4)Spider​爬虫:负责把下载器得到的网页/结果进行分解,分解成数据+链接​。

    (5)Item​Pipeline管道:详细处理Item

    (6)DownloaderMiddleware​下载中间件:自定义下载的功能扩展组件

    (7)Spidermiddleware​爬虫中间件:

    4.爬虫项目大概流程

    (1)​新建项目:scrapy startproject xxx

    (2)明确需要的目标/产出​:编写item.py

    (3)​制作爬虫:​地址:spider/xxspider.py

    (4)​存储内容:pipelines.py​

    四、源码

    Reptile16_1_VertificationCodeRecognition.py

    https://github.com/ruigege66/PythonReptile/blob/master/Reptile16_1_VertificationCodeRecognition.py

    2.CSDN:https://blog.csdn.net/weixin_44630050

    3.博客园:https://www.cnblogs.com/ruigege0000/

    4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

     

  • 相关阅读:
    大快DKhadoop开发环境安装常见问题与解决方案
    大快搜索:做大数据底层技术的领跑者
    大快搜索工业大数据管理平台深度解析
    大快DKH大数据智能分析平台监控参数说明
    大快hadoop安装包下载与平台监控参数说明
    重磅|大快搜索上榜2018中国大数据公司50强 斩获多项大奖成最大黑马
    [岁月随想]感恩节前夕
    [听点音乐]American Music Awards 2015 Winners
    [IT学习]sql 入门及实例
    [英语学习]免费学习英语的好地方
  • 原文地址:https://www.cnblogs.com/ruigege0000/p/12545886.html
Copyright © 2011-2022 走看看