zoukankan      html  css  js  c++  java
  • python验证码识别

    验证码识别

    反爬机制:验证码 识别验证码图片中的数据用于模拟登录相关之间真的操作

    识别验证码的操作:
    - 人工肉眼的识别
    - 第三方自动识别
    - 云打码
    模拟登录:
    - 爬取基于某些基于用户的用户信息.
    需求:对人人网进行模拟登录
    - 点击登录按钮之后会发起一个post请求
    - post请求中会携带登陆之前录入的相关的登录信息(用户名,密码,验证码......)
    - 验证码:每次请求都会变化
    需求:
    爬取当前用户的相关用户信息(个人主页中相关的用户信息)

    http/https协议特征:无状态
    没有请求到对应数据的原因:
    发起的第二次基于个人
    cookie:用来让服务器端记录客户端的相关状态
    - 手动处理:通过抓包工具获取cookie值,将该值封装到headers中。(不建议)
    - 自动处理:
    - cookie值的来源是哪里?
    - 模拟登录post请求后,由服务器端创建.
    - session会话对象:
    - 作用:
    - 可以进行请求的发送。
    - 如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中。
    - 创建一个session对象,session= requests.Session()
    - 使用session对象进行模拟登录post请求的发送(cookie就会被存储在session中)
    - session对象对个人主页对应的get请求进行发送(携带了cookie)

    代理:
    破解封IP这种反爬机制

    什么是代理:
    - 代理服务器
    代理的作用:
    - 可以突破自身IP访问的限制
    - 可以隐藏自身IP被攻击、真实IP

    代理相关的网站:
    - 快代理
    - 西祠代理
    - www.goubanja.com

  • 相关阅读:
    在LinuxMint 17 MATE中安装NVIDIA显卡驱动
    如何在VeryCD中下载资源
    创建多个Dialog时,namespace冲突问题的解决 -- 基于QT 5.2
    Qt 5.2中编译加载MySQL数据库驱动问题的总结
    Python入门 -- 001
    Qt 入门 ---- 布局管理
    Qt 入门 ---- 如何在程序窗口显示图片?
    Redis 教程笔记
    Python pip 报错
    Python手动安装 package
  • 原文地址:https://www.cnblogs.com/gerenboke/p/13389060.html
Copyright © 2011-2022 走看看