zoukankan      html  css  js  c++  java
  • 爬虫的难点?什么是高级的爬虫?

    爬虫的难点

    1,数据量小,其实没什么,难在数据量大了怎么办?百万级别的呢?

    2,数据量大了还好,但是还要效率呢?短时间内要大量数据

    3,这些都还好,但是还要稳定性呢,你的爬虫系统稳定吗?这是一个难点,

    4,这些都还好,还有就是别人有反爬虫,这是难点,因为爬虫是有成本了,目的是低成本的获取你想要的数据,成本太高就不划算了,

    这是四个难点,

    5,有反爬虫还可以,最怕别人盯上你了,针对你反爬虫,这个级别也比较高了,你的爬虫威胁到了别人,

    6,还有就是违法,但是你到这个级别也厉害了,你已经爬到了别人的机密,核心数据,

    什么是高级的爬虫?

    1,解决疑难问题,包括反爬虫,验证码问题,处理账号限制,模拟登陆,这是涉及反爬虫的问题了,

    2,js逆向,app逆向

    3,http协议,数据抓包,分析

    4,熟悉数据库,数据库调优,海量数据处理经验,mysql,redis,mangodb,这是涉及到处理海量数据的问题了,

    5,分布式爬虫,消息队列,这就是涉及到爬虫的效率问题了,

    6,通用爬虫系统,--系统的稳定性的问题,

    为什么做爬虫?

    1,喜欢,

    2,爬虫是数据,数据是互联网的基石之一,我认为互联网有几个基石,用户,数据,技术,

    3,能做,往后的发展是数据分析,数据挖掘,人工只能,这是未来,我从最基础的做起,

    爬虫的技术架构

    1,python

    2,前端

    3,Django

    4,数据库

    5,Linux

    6,框架

    7,中间件,消息队列,redis,celery,

    ###

  • 相关阅读:
    2017博普杯 东北大学邀请赛(B. Drink too much water)(贪心+树链剖分)
    AGC018D Tree and Hamilton Path(树+树的重心)
    BZOJ2843:极地旅行社
    P++ 1.0.5
    BZOJ1052:[HAOI2007]覆盖问题
    BZOJ3098:Hash Killer II
    BZOJ2784:[JLOI2012]时间流逝
    BZOJ2282:[SDOI2011]消防
    BZOJ1875:[SDOI2009]HH去散步
    Codeforces 504 A (Round #285 div.1 A) Misha and Forest
  • 原文地址:https://www.cnblogs.com/andy0816/p/14695103.html
Copyright © 2011-2022 走看看