zoukankan      html  css  js  c++  java
  • Python3爬虫(一)HTTP相关基础

     Infi-chu:

    http://www.cnblogs.com/Infi-chu/

    一、URI、URL、URN、HTTP

    URI:统一资源标志符

    URL:是URI的一个子集

    URN:是URI的另一个子集,统一资源名称

    HTTP协议:
      超文本传输协议,是一个基于“请求与响应”模式的、无状态的引用层协议。
      HTTP协议采用URL作为定位网络资源的标识。
      URL格式 http://host[:port][path]

    二、请求

    1.请求方法

    2.请求的网址

    3.请求头

    4.请求体

    三、响应:

    1.响应状态码

    2.响应头

    3.响应体

    四、GET和POST的区别:

    1.GET相对于POST较不安全,GET将参数包含在URL里面,POST是通过表单形式传输的,包含在请求体中。

    2.GET最多提交的数据大小为1024字节,POST没有限制

    3.GET效率较高与POST

    五、DOM

    1.含义:文档对象模型,定义了访问HTML和XML文档标准

    2.DOM:

      1.核心DOM:针对任何结构化文档的标准模型

      2.XML DOM:针对XML文档的标准模型

      3.HTML DOM:针对HTML文档的标准模型

        a.整个文档是一个文档节点

        b.每个HTML元素是元素节点

        c.HTML元素内的文本是文本节点

        d.每个HTML属性是属性节点

        e.注释是注释节点

    【注】

    节点树中的节点,批次拥有层级关系,常用的有父节点(parent)、子节点(child)、兄弟节点(sibling)

    六、爬虫爬取的步骤:

    1.获取网页

    2.提取信息

    3.保存数据

    4.自动化爬取程序

    七、代理的作用:

    1.突破自身IP访问限制,访问一些平时不能访问的站点

    2.访问一些单位或团体的内部资源

    3.提高访问速度

    4.隐藏真实IP

    八、代理的分类

    1.根据协议分类:

      协议  一般开放端口

      FTP  21、2121

      HTTP     80、8080、3128

      SSL/TLS 443

      RTSP   554

      Telnet   23

      POP3/SMTP  110/25

      SOCKS  1080

    2.根据匿名程度分类:

      a.高度匿名代理

      b.普通匿名代理

      c.透明代理

      d.间谍代理

  • 相关阅读:
    面向对象静态语言的模型
    语言的静态分析技术
    面向对象的核心元素与机制
    Lua 笔记
    Linux配置系统
    Linux文件类型
    Wijmo 日历插件
    窗外大雨,心里小雨
    一次胆战心惊的服务器经历
    一次胆战心惊的服务器经历
  • 原文地址:https://www.cnblogs.com/Infi-chu/p/8942264.html
Copyright © 2011-2022 走看看