zoukankan      html  css  js  c++  java
  • python爬虫零散知识点

    1.HTTP的请求方式:

      1)get请求:

        优点:便捷

        缺点:不安全,明文;参数的长度有限制

      2)post请求

        优点:比较安全;数据整体没有限制;上传文件

      3)put请求

      4)delete请求

      5)head请求

    2.请求头的内容:

      1)Accept:文本的格式

      2)Accept-Encoding:编码格式

      3)Connection:长/短链接

      4)   cookie:验证用的

      5)Host:域名

      6)Referer:标志从哪个页面跳转过来的

      7)User-Agent:浏览器和用户信息  

    3.请求过程

      1)浏览器:本机ip、目标网址(eg:http://baidu.com)

      2)将目标网址发送给dns(域名解析服务商),解析成ip地址返回

      3)目标服务器ip

      4)目标服务器根据请求,从数据库取出数据返回给浏览器

    4.HTTP和HTTPS的区别

      端口号不同。HTTP端口号是80;https端口号是443

    5.ip代理

      免费的ip;付费的ip

      ip分类:

        1)透明:对方知道我们的真实ip

        2)匿名:对方不知道我们真实的ip,但知道你用了代理

        3)高匿:对方不知道我们的真实ip,也不知道我们用了代理  

    6.自定义handler和opener

      1)urllib.request.urlopen(url)能访问页面是因为有opener和handler,系统已经定义好了,但是不支持代理、cookie等其他高级功能,需要自定义handler实现
      2)步骤
      1.获得handler
      urllib.request.XXXXHandler()
      2.创建opener
      urllib.request.build_opener(handler)
      3.通过opener.open访问,得到response
      opener.open(html)
      3)系统的urlopen不支持代理的添加
      创建对应的处理器(handler)
      1.创建ProxyHandle
      2.创建opener:bulid_open(handler)
      3.opener.open(url)

       

  • 相关阅读:
    CodeForces 450
    CodeForces 400
    CodeForces 1
    [HDU POJ] 逆序数
    [HDU 1166] 敌兵布阵
    [转] 树状数组学习
    关于1月4日到1月7日
    [HDU 1565+1569] 方格取数
    [POJ 1459] Power Network
    [转] 网络流算法--Ford-Fulkerson方法及其多种实现
  • 原文地址:https://www.cnblogs.com/yejiang/p/10642270.html
Copyright © 2011-2022 走看看