zoukankan      html  css  js  c++  java
  • 爬虫

    1. 请求过程与网页基础

    url请求的网址,统一资源定位符号,唯一确定我们想要的资源

    请求过程

    客户端通常指web浏览器或APP向服务器发送请求,服务器接收到请求,进行处理,并向客户端发起响应

    2. 请求

    请求:由客户端向服务器发出的,可以分为四个部分,请求方法,请求网址,请求头,请求体

    常见的8种请求方法

    get:请求页面并返回页面内容

    post:用于提交表单数据或上传文件,数据包含在请求体中

    put:从客户端向服务区发送数据取代指定文档中的内容

    delete:请求服务器删除指定的内容

    connect:把服务器当做跳板,让服务器代替客户端访问其他网页

    options:回显服务器收到的请求用于测试或诊断

    ### get和post请求的区别

    1. get请求中的参数包含在url里面,数据可以在url中看到而post请求的url不会包含这些数据,post数据都是通过表单形式传输的,会包含在请求体中

    2. get请求提交的数据最多只有1024字节,而post没有限制

    3. post请求比get相对安全

    # 请求头

    请求头,用来说明服务器要使用的附加信息,重点掌握:Accept,Cookie,Referer,User-Agent,Host

    1.Accept:请求报头域,用于指定客户端可接受那些类型的信息 # 重点

    2.Cookie:也常用复数形式Cookie,这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它是主要功能是维护当前访问会话。例如,我们输

    用户名和密码成功登录某个网站后,服务器会用会话保存登录状态信息,后面我们每次刷新或请求该站点的其他页面时,会发现都是登录状态,这就

    Cookie的功劳。Cookie里面有信息标识了我们每次刷新或请求该站点是其他页面时,会发现都是登录状态,这就是Cookie的功劳。Cookie里面有信息标

    了我们所对应的服务器的对话,每次浏览器在请求该站点的页面时,都会在请求头中加上Cookies并将其发送给服务器,服务器通过Cookies识别出是我

    自己,并且查出当前状态是登录状态,所以返回结果加上登录之后才能看到的网页内容 # 重点

    3.Referer:此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理。如作来源统计、防盗链处理等 # 微重点

    4.User-Agent:简称UA,它是一个特殊的字符串头,可以使用服务器识别客户使用的操作系统及版本,浏览器及版本等信息。在做爬虫时加上此信息,

    以伪装为浏览器,如果伪装为浏览器:如果不加,很有可能会被识别为爬虫 # 重点

    5.x-requested-with:XMLHttpRequest # 代表ajax请求

    6.Accept-Language:指定客户端可接受的语言类型

    7.Accept-Encodeing:指定客户端可接受的内容编码

    8.Content-Type:也叫互联网媒体类型(Internet Media Type) 或者 MIME 类型,在HTTP协议消息头中,它表示具体请求中媒介类型信息,;例如

    text/html代表HTML格式。image/gif代表GIF图片,application/json代表JSON类型

    请求体:(古诗文网登陆实例)

    请求体一般承载的内容是POST请求中的表单数据,而对于GET请求请求体则为空

    get获取页面资源

    get和post是否都能向服务器传递数据

  • 相关阅读:
    【转】js 获取浏览器高度和宽度值(多浏览器)
    Css相册
    微信公众号开发笔记2-自定义菜单
    微信公众号开发笔记1-获取Access Token
    【转】CSS选择器笔记
    【转】CSS浮动(float,clear)通俗讲解
    高云的jQuery源码分析笔记
    经典闭包例子详解
    执行控制——节流模式
    图片上下左右的无缝滚动的实现
  • 原文地址:https://www.cnblogs.com/lishanglin/p/13062837.html
Copyright © 2011-2022 走看看