zoukankan      html  css  js  c++  java
  • python爬虫零散知识点

    1.HTTP的请求方式:

      1)get请求:

        优点:便捷

        缺点:不安全,明文;参数的长度有限制

      2)post请求

        优点:比较安全;数据整体没有限制;上传文件

      3)put请求

      4)delete请求

      5)head请求

    2.请求头的内容:

      1)Accept:文本的格式

      2)Accept-Encoding:编码格式

      3)Connection:长/短链接

      4)   cookie:验证用的

      5)Host:域名

      6)Referer:标志从哪个页面跳转过来的

      7)User-Agent:浏览器和用户信息  

    3.请求过程

      1)浏览器:本机ip、目标网址(eg:http://baidu.com)

      2)将目标网址发送给dns(域名解析服务商),解析成ip地址返回

      3)目标服务器ip

      4)目标服务器根据请求,从数据库取出数据返回给浏览器

    4.HTTP和HTTPS的区别

      端口号不同。HTTP端口号是80;https端口号是443

    5.ip代理

      免费的ip;付费的ip

      ip分类:

        1)透明:对方知道我们的真实ip

        2)匿名:对方不知道我们真实的ip,但知道你用了代理

        3)高匿:对方不知道我们的真实ip,也不知道我们用了代理  

    6.自定义handler和opener

      1)urllib.request.urlopen(url)能访问页面是因为有opener和handler,系统已经定义好了,但是不支持代理、cookie等其他高级功能,需要自定义handler实现
      2)步骤
      1.获得handler
      urllib.request.XXXXHandler()
      2.创建opener
      urllib.request.build_opener(handler)
      3.通过opener.open访问,得到response
      opener.open(html)
      3)系统的urlopen不支持代理的添加
      创建对应的处理器(handler)
      1.创建ProxyHandle
      2.创建opener:bulid_open(handler)
      3.opener.open(url)

       

  • 相关阅读:
    61. 最长不含重复字符的子字符串
    60. 礼物的最大价值 (未理解)
    59. 把数字翻译成字符串
    58. 把数组排成最小的数
    57. 数字序列中某一位的数字 (不懂)
    spring data jpa 官方文档
    idea 编译报错 源发行版 1.8 需要目标发行版 1.8
    idea maven 依赖报错 invalid classes root
    solr
    spring boot 官方文档
  • 原文地址:https://www.cnblogs.com/yejiang/p/10642270.html
Copyright © 2011-2022 走看看