zoukankan      html  css  js  c++  java
  • python-爬虫概念

    爬虫


    1、爬虫的概念

    1. 什么是爬虫

      爬虫:网络爬虫机器人,从互联网自动抓取数据的程序

    2. 爬虫分类

      • 通用爬虫

        通用网络爬虫:是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

        工作原理:

      • 聚焦爬虫

        聚焦爬虫:聚焦爬虫是面向主题的爬虫,再爬取数据的过程中会对数据进行筛选往往只会爬虫与需求相关的数据

        聚焦爬虫的设计思路:
        1.确定爬取的url,模拟浏览器向服务器发送请求

        2.获取响应数据并进行数据分析
        3.将目标数据持久化到本地

        工作原理:

      4、Robot.txt 是什么,里面的参数是什么意思

      Robots协议:(也叫爬虫协议、机器人协议等),全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取

      User-agent:(识别是哪家的爬虫

    Allow: 允许爬取的目录
    Disallow: 不允许爬取的目录

    5、OSI七层协议(无论是面试的时候还是笔试,都必须按照顺序说)

    应用层,表示层,会话层,传输层,网络层,数据链路层,物理层

    6.TCP/IP五层协议(无论是面试的时候还是笔试,都必须按照顺序说)

    应用层、传输层、网络层、数据链路层、物理层

    7、总结HTTPS和HTTP的区别

    • HTTPS是HTTP协议的安全版本,HTTP协议的数据传输是明文的,是不安全的,HTTPS使用了SSL/TLS协议进行了加密处理。

      • http和https使用连接方式不同,默认端口也不一样,http是80,https是443。

      8、TCP和UDP的区别

    从小白到大神的蜕变~~
  • 相关阅读:
    回溯算法(DFS:深度优先)
    KNN原理和实现
    Anaconda虚拟环境控制
    c++容器
    最坏情况为线性时间的选择算法
    JVM原理解析
    substr、substring和slice的区别
    word-wrap与break-word属性的区别
    js修改伪类的值
    快速批量删除文件名中相同的文字
  • 原文地址:https://www.cnblogs.com/tjw-bk/p/13751817.html
Copyright © 2011-2022 走看看