zoukankan      html  css  js  c++  java
  • 爬虫基础

    1.http原理

    1.1 URL和URI

    URL: 统一资源定位符

    URI: 统一资源标识符

    URI是URL的父类,URI还有一个子类叫做URN(统一资源名称),URN只命名资源,而不指定如何定位资源,所以URN用的非常少,几乎所有的URI都是URL

    1.2 超文本:网页的源代码HTML就可以称之为超文本

    1.3 HTTP 超文本传输协议(应用层)

    用于从网络文本数据到本地浏览器的传送协议

    一个HTTP的操作称之为一个事物,分为四个步骤

    (1)客户端与服务器端建立连接

    (2)建立连接以后,客户端向服务器端发送一个请求(request)

    请求:包括请求的方法,请求的网址(URL)请求头 请求体

    请求体:一般承载的都是post请求的表单数据,get请求的请求体为空

    (3)服务器端接收到请求后,给与响应(response) ,格式是一个状态行

    响应(response) 包括响应的状态码, 响应头, 响应体

    响应体: 响应的正文数据都在响应体中,请求网页时,它的响应体就是网页的HTML代码

    (4)断开连接

    HTTPS: 是以安全为目标的HTTP通道,简单来说就是HTTP的安全版,即HTTP下加入了SSL层,简称HTTPS,HTTPS的安全基础是SSL,因此通过它传送到内容都是经过SSL加密的。

    1.4 请求方法(GET ,  POST)

    1.4.1 get :在浏览器中 直接输入URL并回车,这便发起了一个get请求

    1.4.2 post : 大多在表单提交时发送,比如一个登陆表单输入用户的密码和用户名后点登陆,就会发起一个post请求。其数据会以表单得到形式传输,而不会体现在URL上

    GET请求的参数在URL上是可以看到的,而post请求的url上是不会有这些数据的,数据会以表单的形式传输,包含在请求体中

    1.5 请求头 用于说明服务器要使用的附加信息

    Accept  用于指定客户端可以接受那种信息

    Accept-language   客户端可以接受的语言类型

    Accept-Encoding  客户端可以接受的编码格式

    Host  用于指定请求资源的主机IP和端口号

    Cookie  主要功能是维持当前的访问对话

    User-Agent:  使服务器识别客户端使用的操作系统和浏览器

    1.6 响应头  包含了服务器对请求的 应答信息

    Date  标志响应产生的时间

    Server  包含服务器的信息 比如名称和版本号

    Content-Type: 文档类型,指定返回的数据类型是什么

    set-cookie  设置cookies

    1.7 会话和cookies

    HTTP有一个特点,无状态, 就是说HTTP对于事务的处理是没有记忆功能的。

    所以为了保持HTTP的连接状态,就出现了会话和cookies技术

    会话: 在服务器端,用于保存用户的会话信息

    cookies 在客户端,有了cookies,浏览器在下次访问网页时会自动的附带上他发送给服务器,服务器会根据cookies判断出它是那个用户以及用户的状态,返回相应的响应

    我们可以想象。cookies中保存了登陆的凭证。有了它,下次登陆时,就不用再输入用户名和密码了

  • 相关阅读:
    scoket --- 练习
    网络编程---scoket使用,七层协议,三次挥手建连接,四次挥手断连接
    类的总复习
    面向对象 --- 类的绑定方法,面向对象高阶
    组合,访问限制机制,抽象类 --- 练习
    面向对象 --- 类的组合,封装,多态
    类的继承 --- 练习
    面向对象 --- 类的继承
    基于面向对象设计一个游戏
    请求头类型content-type
  • 原文地址:https://www.cnblogs.com/zysfx/p/12658313.html
Copyright © 2011-2022 走看看