zoukankan      html  css  js  c++  java
  • 爬虫的本质是和分布式爬虫的关系

    爬虫的本质是什么

    搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西,认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平,而不会分布式爬虫,则认为爬虫工程师的水平很菜,这是一种很肤浅的思想。

    一:在实际的工作中,爬虫根本不需要去分布式爬虫

      1.现在服务器越来越好,网络也越来越好,一台优秀的服务器加上好的网络,开多线程或者多进程抓取等并发抓取手段,完全可以轻松实现日抓取千万数据。

      2.大部分公司的数据采集量,每日也就是几十万或者采集网站数据量也就几万条数据而已。没有那么大的数据量,去搞分布式爬虫有什么那么意义呢?

    二:分布式爬虫只是提高爬虫效率的一个环节,,它从来不是爬虫的本质东西。

      爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是爬虫要去解决的核心问题。

    分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么,当数据量很少的时候。

    ,根本就没有必要去搞分布式爬虫,对大部分公司所抓取得数据量来说,搞分布式爬虫意义不大

  • 相关阅读:
    javascript一个重要知识点:事件。
    null和undifned的区别
    javascript中常用数组方法详细讲解
    在网站中数据缓存的重要性
    谈谈我对闭包知识的深刻理解
    FormData上传文件(不是所有的浏览器都支持)
    iframe+form表单提交数据
    伪AJAX
    ajax之发送post请求
    AJAX之发送GET请求
  • 原文地址:https://www.cnblogs.com/xuchunlin/p/12633950.html
Copyright © 2011-2022 走看看