zoukankan      html  css  js  c++  java
  • 初学jupyter 与爬虫

    jupyter的快捷键:

        - 插入cell:a b   a是在上方添加,b是在下方添加,
        - 删除cell:x,
        - 切换cell的模式:m y  m为切换到makedown格式,y为切换到code模式,
        - 执行cell:shift+enter,
        - tab:自动补全,
        - shift+tab:打开帮助文档

    什么是爬虫:

      通过编写程序,模拟浏览器上网,让其去互联网上获取数据的过程

    爬虫的分类

      1.通用爬虫:获取一整张页面数据

      2.聚焦爬虫:根据指定的需求获取页面中指定的局部数据

      3.增量式爬虫:用来监测网站数据更新的情况。爬取网站最新更新出来的数据。

    反爬机制:网站可以采取先关的技术手段或者策略阻止爬虫程序进行网站数据的爬取

    反反爬策略:让爬虫程序通过破击反爬机制获取数据

    robots协议:一篇写着网站内容什么是允许爬的,什么是不允许爬的文档     没有什么强制的约束,防君子不防小人

    http协议:client和Server进行数据交互的形式

    https:安全的http协议

    • 对称秘钥加密:
    • 非对称秘钥加密:
    • 证书秘钥加密:

    使用到的头信息:

    • User-Agent:请求载体的身份标识
    • Connection:'close'
    • content-type:

    requests模块

    • pip install requests
    • 作用:就是用来模拟浏览器上网的。
    • 特点:简单,高效
    • old:urllib
    • requests模块的使用流程:
      • 指定url
      • 发起请求
      • 获取响应数据
      • 持久化存储
    • 反爬机制:UA检测
    • 反反爬策略:UA伪装,伪造headers,伪装为google浏览器headers = {
          'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
      }
  • 相关阅读:
    蓝桥杯 勾股数 暴力
    蓝桥杯 连接乘积 暴力
    蓝桥杯 师座操作系统 map
    蓝桥杯 洗牌 vector
    蓝桥杯 盾神与砝码称重 dfs 剪枝
    蓝桥杯 盾神与积木游戏 贪心
    RESTful风格API
    APIview使用
    linux常用命令
    python中的三种路径
  • 原文地址:https://www.cnblogs.com/wangpanger/p/10931228.html
Copyright © 2011-2022 走看看