爬虫的难点
1,数据量小,其实没什么,难在数据量大了怎么办?百万级别的呢?
2,数据量大了还好,但是还要效率呢?短时间内要大量数据
3,这些都还好,但是还要稳定性呢,你的爬虫系统稳定吗?这是一个难点,
4,这些都还好,还有就是别人有反爬虫,这是难点,因为爬虫是有成本了,目的是低成本的获取你想要的数据,成本太高就不划算了,
这是四个难点,
5,有反爬虫还可以,最怕别人盯上你了,针对你反爬虫,这个级别也比较高了,你的爬虫威胁到了别人,
6,还有就是违法,但是你到这个级别也厉害了,你已经爬到了别人的机密,核心数据,
什么是高级的爬虫?
1,解决疑难问题,包括反爬虫,验证码问题,处理账号限制,模拟登陆,这是涉及反爬虫的问题了,
2,js逆向,app逆向
3,http协议,数据抓包,分析
4,熟悉数据库,数据库调优,海量数据处理经验,mysql,redis,mangodb,这是涉及到处理海量数据的问题了,
5,分布式爬虫,消息队列,这就是涉及到爬虫的效率问题了,
6,通用爬虫系统,--系统的稳定性的问题,
为什么做爬虫?
1,喜欢,
2,爬虫是数据,数据是互联网的基石之一,我认为互联网有几个基石,用户,数据,技术,
3,能做,往后的发展是数据分析,数据挖掘,人工只能,这是未来,我从最基础的做起,
爬虫的技术架构
1,python
2,前端
3,Django
4,数据库
5,Linux
6,框架
7,中间件,消息队列,redis,celery,
###