zoukankan      html  css  js  c++  java
  • HTTP协议

    HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。

    主要特点:

    1. 简单快速:客户端向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST、PUT、DELETE等。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。
    2. 灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。
    3. 无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户端的请求,并收到客户端的应答后,便断开连接。
    4. 无状态:无状态是指协议对于事务处理没有记忆能力。如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大,但服务器不需要先前信息时它的应答就较快。
    5. 支持客服/服务器模式。
    HTTP之URL:
    HTTP使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。URI由两个主要的子集URL和URN构成,URL是通过描述资源的位置来标识资源的,而URN则是通过名字来标识资源的,与他们当前所处的位置无关。

    以下面这个URL为例,介绍下普通URL的各部分组成:

    http://www.aspxfans.com:8080/news/index.asp?boardID=5&ID=24618&page=1#name

    1、协议:指出使用什么协议解析URL。协议以一个字母开始,由第一个“:”将其与URL的其余部分分隔开。该URL的协议部分为“http”,这代表网页使用的是HTTP协议。在Internet中可以使用多种协议,如HTTP,FTP等等。
    2、域名:该URL的域名部分为“www.aspxfans.com”。一个URL中,也可以使用IP地址作为域名使用
    3、端口号:域名后面的是端口,域名和端口之间使用“:”作为分隔符。端口不是一个URL必须的部分,如果省略端口部分,将采用默认端口。
    4、路径:指明资源位于服务器的什么地方。本例中的路径是“/news/index.asp”。
    5、查询字符串:从“?”开始到“#”为止的部分。本例中的查询字符串为“boardID=5&ID=24618&page=1”。查询字符串中允许有多个参数,参数与参数之间用“&”作为分隔符。
    6、片段:用来表示一个资源内部的片段。从“#”开始到最后,都是片段部分。本例中的片段部分是“name”。

    HTTP之请求:

    客户端发送一个HTTP请求到服务器的请求报文如下:
     
    1、请求行:以方法开头,以空格分开,后面跟请求的URL和协议的版本。
    请求方法有如下几种:
    • GET:从服务器获取一份文档
    • HEAD:只从服务器获取文档的首部
    • POST:向服务器发送需要处理的数据,常用于表单提交。
    • PUT:将请求的主体部分存储在服务器上
    • TRACE:对可能经过代理服务器传送到服务器上去的报文进行追踪
    • OPTIONS:决定可以在服务器上执行哪些方法
    • DELETE:从服务器上删除一份文档
    2、请求头部:用来说明服务器要使用的附加信息(后述)
    3、空行,请求头部后面的空行是必须的
    4、请求数据:

    HTTP之响应:

    HTTP响应也由四个部分组成,分别是:状态行、消息报头、空行和响应正文。
    1、状态行:由HTTP协议版本号, 状态码, 状态消息 三部分组成。
    HTTP状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP状态码共分为5种类型:
    • 1**:指示信息,表示服务器收到请求,需要客户端继续执行操作
    • 2**:成功。请求被成功接收并处理
    • 3**:重定向。需要客户端进一步操作
    • 4**:客户端错误,请求包含语法错误或无法完成请求
    • 5**:服务器错误,服务器在处理请求的过程中发生了错误
    常见的状态码有:
    200    OK     //客户端请求成功
    400 Bad Request  //客户端请求有语法错误,不能被服务器所理解
    401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
    403 Forbidden  //服务器收到请求,但是拒绝提供服务
    404 Not Found  //请求资源不存在,eg:输入了错误的URL
    500 Internal Server Error //服务器发生不可预期的错误
    503 Server Unavailable  //服务器当前不能处理客户端的请求,一段时间后可能恢复正常
    2、消息报头,用来说明客户端要使用的一些附加信息(后述)
    3、空行,消息报头后面的空行是必须的
    4、响应正文,服务器返回给客户端的文本信息。

    HTTP之消息报头:

    HTTP消息由客户端到服务器的请求和服务器到客户端的响应组成。请求消息和响应消息都是由开始行(对于请求消息,开始行就是请求行,对于响应消息,开始行就是状态行)
    ,消息报头(可选),空行,消息正文(可选)组成。
    HTTP消息报头包括普通报头、请求报头、响应报头、实体报头。每一个报头域都是由名字+“:”+空格+值 组成,消息报头域的名字是大小写无关的。
    普通报头:
    Connection允许客户端和服务器指定与请求/响应连接有关的选项
    Date报文是什么时候创建的
    MIME-Version发送端使用的MIME版本
    Trailer如果报文采用分块传输编码,这个首部列出位于报文trailer部分的首部集合
    Transfer-Encoding编码方式
    Update发送端想要升级使用的新版本或协议
    Via报文经过的中间节点
    Cache-Control随报文传送缓存指示
    Pragma随报文传送指示的方式,不专用于缓存
    请求报头:
    Client-IP客户端的IP地址
    From客户端用户的Email地址
    Host接收请求的服务器的主机名和端口号
    Referer包含当前请求URI的文档的URL
    UA-Color客户端显示器的显示颜色
    UA-CPU客户端CPU的类型或制造商
    UA-Disp客户端显示器能力
    UA-OS客户端操作系统的名称及版本
    User-Agent发起请求的应用程序名称
    Accept服务器能够发送的媒体类型
    Accept-Charset服务器能够发送的字符集
    Accept-Encoding服务器能够发送的编码方式
    Accept-Language服务器能够发送的语言
    响应报头:
    Age响应持续时间
    Accept-Range服务器可以接受的范围类型
    Public服务器为其资源支持的请求方法列表
    Retry-After如果资源不可用,在此日期或时间重试
    Server服务器应用程序软件的名称和版本
    Set-Cookie设置和页面关联的Cookie
    TitleHTML文档的标题
    Vary服务器查看的其他首部列表
    Warning详细的警告报文
    WWW-Authenticate客户端提供给服务器端的授权信息
    实体报头:
    Allow服务器支持的请求方法
    Content-Encoding文档的编码方法
    Content-Length内容长度。只有当浏览器使用持久HTTP连接时,才需要此字段
    Content-Type文档的MIME类型
    Date当前时间
    Expires在何时文档过期
    Last-Modified文档的最后修改日期
    Location文档存放的位置
    Refresh浏览器应该在多长时间之后刷新文档
  • 相关阅读:
    python爬虫系列之爬取多页gif图像
    python连续爬取多个网页的图片分别保存到不同的文件夹
    python多线程同步
    python多线程简单例子
    python定时器爬取豆瓣音乐Top榜歌名
    python模拟Get请求保存网易歌曲的url
    python使用get在百度搜索并保存第一页搜索结果
    python爬取某个网页的图片-如百度贴吧
    完全揭秘log file sync等待事件-转自itpub
    两表关联更新
  • 原文地址:https://www.cnblogs.com/APeng2019/p/10719410.html
Copyright © 2011-2022 走看看