zoukankan      html  css  js  c++  java
  • 爬虫的本质是和分布式爬虫的关系

    爬虫的本质是什么

    搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西,认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平,而不会分布式爬虫,则认为爬虫工程师的水平很菜,这是一种很肤浅的思想。

    一:在实际的工作中,爬虫根本不需要去分布式爬虫

      1.现在服务器越来越好,网络也越来越好,一台优秀的服务器加上好的网络,开多线程或者多进程抓取等并发抓取手段,完全可以轻松实现日抓取千万数据。

      2.大部分公司的数据采集量,每日也就是几十万或者采集网站数据量也就几万条数据而已。没有那么大的数据量,去搞分布式爬虫有什么那么意义呢?

    二:分布式爬虫只是提高爬虫效率的一个环节,,它从来不是爬虫的本质东西。

      爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是爬虫要去解决的核心问题。

    分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么,当数据量很少的时候。

    ,根本就没有必要去搞分布式爬虫,对大部分公司所抓取得数据量来说,搞分布式爬虫意义不大

  • 相关阅读:
    spawn-fcgi
    JSP EL表达式
    关于订阅号和自定义菜单的关系问题
    微信公众平台开发(74) 用户分组管理
    微信公众平台开发(73) 客服接口发送客服消息
    用数据分析寻找下一位苍井空
    微商城
    微信支付体验
    微信公众平台开发(72)第三方接口
    微信公众平台开发(71)OAuth2.0网页授权
  • 原文地址:https://www.cnblogs.com/xuchunlin/p/12633950.html
Copyright © 2011-2022 走看看