爬虫的难点？什么是高级的爬虫？

zoukankan html css js c++ java

爬虫的难点？什么是高级的爬虫？

爬虫的难点

1，数据量小，其实没什么，难在数据量大了怎么办？百万级别的呢？

2，数据量大了还好，但是还要效率呢？短时间内要大量数据

3，这些都还好，但是还要稳定性呢，你的爬虫系统稳定吗？这是一个难点，

4，这些都还好，还有就是别人有反爬虫，这是难点，因为爬虫是有成本了，目的是低成本的获取你想要的数据，成本太高就不划算了，

这是四个难点，

5，有反爬虫还可以，最怕别人盯上你了，针对你反爬虫，这个级别也比较高了，你的爬虫威胁到了别人，

6，还有就是违法，但是你到这个级别也厉害了，你已经爬到了别人的机密，核心数据，

什么是高级的爬虫？

1，解决疑难问题，包括反爬虫，验证码问题，处理账号限制，模拟登陆，这是涉及反爬虫的问题了，

2，js逆向，app逆向

3，http协议，数据抓包，分析

4，熟悉数据库，数据库调优，海量数据处理经验，mysql，redis，mangodb，这是涉及到处理海量数据的问题了，

5，分布式爬虫，消息队列，这就是涉及到爬虫的效率问题了，

6，通用爬虫系统，--系统的稳定性的问题，

为什么做爬虫？

1，喜欢，

2，爬虫是数据，数据是互联网的基石之一，我认为互联网有几个基石，用户，数据，技术，

3，能做，往后的发展是数据分析，数据挖掘，人工只能，这是未来，我从最基础的做起，

爬虫的技术架构

1，python

2，前端

3，Django

4，数据库

5，Linux

6，框架

7，中间件，消息队列，redis，celery，

###

查看全文

相关阅读:
算法练习--ABCD*E=DCBA
Android实现炫酷SVG动画效果
 swift -NavigationController,代理传值
 交换机的原理及其配置(一)
NOI2015 题解
 实现存储过程详解
 数据流图（DFD）画法
 SQL SERVER 常用字符类型的区别
 数据库常见面试题集锦，数据库面试题，数据库练习题
 Django自定义模型（model）中的字段标签

原文地址：https://www.cnblogs.com/andy0816/p/14695103.html