zoukankan      html  css  js  c++  java
  • Python:黑板课爬虫闯关第五关

    第五关是最后一关了,至此之后黑板课就没有更新过关卡了。

    第五关地址:http://www.heibanke.com/lesson/crawler_ex04/

    可以看到,是在第三关的基础上加了验证码。

    验证码识别我们可以通过 tesserocr 来识别,tesserocr 的使用在我的前面两篇博客中有介绍。

    在这里,tesserocr 的识别率不是很高,大概只有10%到15%,通过训练,也没能有啥改善,不知道是不是我弄错了,有尝试过的朋友可以给我留言。

    代码如下:

    import re
    import requests
    import time
    from PIL import Image
    from bs4 import BeautifulSoup
    import tesserocr
    
    
    def main():
        url_login = 'http://www.heibanke.com/accounts/login/'
        url = 'http://www.heibanke.com/lesson/crawler_ex04/'
        session = requests.Session()
        session.get(url_login)
        token = session.cookies['csrftoken']
        session.post(url_login, data={'csrfmiddlewaretoken': token, 'username': 'xx', 'password': 'xx'})
        psd = 0
        while psd < 30:
            print(f'test password {psd}')
            r = session.get(url)
            soup = BeautifulSoup(r.text, 'lxml')
            img_tag = soup.find('img')
            img_url = 'http://www.heibanke.com' + img_tag['src']
            requests.get(url)
            code = get_code(img_url)
            if code is None:
                time.sleep(1)
                continue
            token = session.cookies['csrftoken']
            r = session.post(url, data={'csrfmiddlewaretoken': token, 'username': 'aa', 'password': psd,
                                        'captcha_0': code[0], 'captcha_1': code[1]})
            html = r.text
            if '验证码输入错误' in html:
                time.sleep(1)
            elif '密码错误' not in html:
                m = re.search('(?<=<h3>).*?(?=</h3>)', html)
                print(m.group())
                return
            else:
                time.sleep(1)
                psd += 1
    
    
    def get_code(url):
        flag = url.split("/")[-2]
        fn = flag + '.png'
        with open(fn, 'wb+') as sw:
            sw.write(requests.get(url).content)
    
        img = Image.open(fn)
        img = img.convert('L')
        result = tesserocr.image_to_text(img).strip()
        print(flag, result)
        if re.match('^[A-Za-z0-9]{4}$', result):
            return flag, result
    
    
    if __name__ == '__main__':
        main()

     

     

     

  • 相关阅读:
    嗨,我在京东发现个好东东,还挺便宜
    电车男_百度百科
    罗生门 百度百科
    丹朱AI的日记豆瓣社区(手机版)
    关于美国Amazon的工作情况 JiansNet
    仓廪实而知礼节,衣食足而知荣辱_百度百科
    分享:对linux的IO的再认识
    怎样征服美丽少女的评论 (4)
    代入感 百度百科
    高富帅们 ucla的衣服怎么样啊
  • 原文地址:https://www.cnblogs.com/gl1573/p/9907493.html
Copyright © 2011-2022 走看看