zoukankan      html  css  js  c++  java
  • python爬虫概述

    1. 网络爬虫的概念:模拟客户端(主要指浏览器),发送网络请求,获取网络响应数据的自动化程序。  
    2. 爬虫的应用场景:
      • 数据采集   通过python爬虫爬取微博事件评论,进行舆情分析;通过爬取互联网岗位信息,进行行业分析;天气预报等数据采集
      • 软件测试   使用selenium进行软件测试
      • 短信轰炸、12306买票等
    3. http协议与https协议
      • http协议,超文本传输协议,默认端口号80
        • 超文本传,超越文本,不限于文本,包含视频、图片等
        • 传输协议,共同约定一种格式,进行数据传输
      • https,即http+ssl(安全套接字),默认端口443
        • ssl针对传输内容进行加密操作

      4.http的响应格式:

      • get请求
        • 请求行    请求方式+路径+协议版本
        • 请求头    请求地址、cookies等信息(各种信息较多,不详细描述)
        • 空行
      • post请求
        • 请求行   (同get请求)
        • 请求头   (同get请求)
        • 请求体   (账号、表单等信息,同时会包含一些反爬字段注意识别)
        • 空行

    5.请求头字段介绍

      • host(域名):www.baidu.com
      • connection(链接方式):keep-alive
      • User-Agent(用户代理):浏览器的基本信息
      • referer(页面跳转处):防止盗链及增加反爬手段
      • cookies(用户标识): 用户的唯一标识,用来识别唯一用户

    6.常见状态码

      • 200:成功
      • 302:跳转
      • 303:对post请求的响应进行重定向新的url
      • 307:对get请求的响应进行重定向
      • 403:服务端理解客户的请求,但拒绝他。没有权限
      • 404:找不到该页面
      • 500:服务器内部错误
      • 503:服务器由于维护或负载过重未能应答,有可能是因为爬虫的频繁响应,使服务器忽视爬虫的请求

               对于服务器返回的状态码,仅供爬虫时参考,不能完全相信。

  • 相关阅读:
    C# 利用ffmpeg 对视频转换系类操作 (1) 基本分析
    对象的行为
    类、对象、包
    java中的程序流程控制
    季节
    好的博客网址
    大家好 希望大家多多帮助
    Android 4.4 安卓系统突破限制让所有应用程序可操作外置SD卡
    STL笔记:函数配接器(Function adapters)
    STL中仿函数的简要回顾
  • 原文地址:https://www.cnblogs.com/luweilehei/p/13039851.html
Copyright © 2011-2022 走看看