zoukankan      html  css  js  c++  java
  • python爬虫

    爬虫原理
    模拟请求→拿到数据→根据数据不同的类型用不同的方式解析→存储
     
    学习步骤
    1、http协议
    2、请求库:requests,(urlib3比较复杂,不建议)
        requests请求库只能把页面内容下载本地以后,并不能执行js代码(浏览器可以
        需要分析目标站点策略
    3、解析库:re,beautifulsoup,pyquery
    4、存储库:文件,MySQL,Mongodb,Redis
    5、性能相关:异步IO
    6、框架:scrapy
     
    Http协议的8种请求
    常用:GET  向特定服务端获取数据,数据在url中传输。
    常用:POST   向服务端提交数据,数据包含在请求体中,
    其他请求方式:HEAD,PUT,DELETE,OPTIONS,TRACE,CONNECT
     
    网页的加载过程是:
    加载一个网页,通常都是先加载document文档,
    在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求
     
    请求头
    User-Agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户
    host
    cookies:cookie用来保存登录信息
    一般做爬虫都会加上请求头

    例如:
    User-Agent
    Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/56.0
     
    Host 请求头指明了服务器的域名(对于虚拟主机来说),以及(可选的)服务器监听的TCP端口号。
    HTTP Cookie(也叫Web cookie或者浏览器Cookie)是服务器发送到用户浏览器并保存在浏览器上的一块数据,它会在浏览器下一次发起请求时被携带并发送到服务器上。比较典型的,可以它用来确定两次请求是否来自于同一个浏览器,从而能够确认和保持用户的登录状态。Cookie使得基于无状态的HTTP协议记录稳定的状态信息成为了可能。
     
     
    请求体
      如果是get方式,请求体没有内容
       如果是post方式,请求体是form data
    
        ps:
        1、登录窗口,文件上传等,信息都会被附加到请求体内
        2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post 
     
     
    响应
     
    #1、响应状态
        200:代表成功
        301:代表跳转
        404:文件不存在
        403:权限
        502:服务器错误
    
    #2、respone header
        set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来
        
    #3、preview就是网页源代码
        最主要的部分,包含了请求资源的内容
        如网页html,图片
        二进制数据等
     
    爬虫所需工具:
        请求库:requests,selenium
        解析库:正则,beautifulsoup,pyquery
        存储库:文件,MySQL,Mongodb,Redis
     
    requests模块
    requests模块可以模拟浏览器的请求,比起urllib,requests模块的api更加便捷,本质就是封装了urllib3。
     
     
    #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求
     
    #各种请求方式:常用的就是requests.get()和requests.post()
    >>> import requests
    >>> r = requests.get('https://api.github.com/events')
    >>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})
    >>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
    >>> r = requests.delete('http://httpbin.org/delete')
    >>> r = requests.head('http://httpbin.org/get')
    >>> r = requests.options('http://httpbin.org/get')
    
    
     
    未完待续
     
     
     
     
     
     
     
     
     
     
     
     
  • 相关阅读:
    Mac修改默认的电子邮箱客户端
    记录下生活:ETC卡充值(上海)
    Mac下卸载Mysql数据库
    网络爬虫学习笔记 1
    Clock置换算法
    用random.randint函数时 报错 'str' object cannot be interpreted as an integer问题
    分页式存储管理
    初学C++ vector 容器
    马一个讲devc++调试讲的很好的视频
    一些笔记(xss 跨站脚本攻击)
  • 原文地址:https://www.cnblogs.com/ArmoredTitan/p/7795349.html
Copyright © 2011-2022 走看看