一:什么是网络爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取网络信息的程序或者脚本;
二:为什么要做网络爬虫?
大数据时代,要进行数据分析,首先要有数据源,数据从何而来?
在进行大数据分析或者进行数据挖掘的时候,数据源可以从某些提供数据统计的网站获得,也可以从某些文献或内部资料中获得,但是这些获得数据的方式,
有时很难满足我们对数据的需求,而手动从互联网中去寻找这些数据,则耗费的精力过大。此时就可以利用爬虫技术,自动地从互联网中获取我们感兴趣的数据内
容,并将这些数据内容爬取回来,作为我们的数据源,从而进行更深层次的数据分析,并获得更多有价值的信息。
比如说:
-
政府/机构公开的数据
:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。
而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集,去掉很多无关数据。
三:浏览器请求URL:
当用户输入网址之后,经过DNS服务器,找到服务器主机,然后向服务器发出请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,
浏览器解析出来,便看到形形色色的图片,因此,用户看到的网页实质是由HTML代码构成的,爬虫爬来的正是这些内容,通过分析过滤和谐HTML代码,实现对
图片、文字等资源的获取;
四:关于网络爬虫
1. Python基础语法学习(基础知识)
2. 对HTML页面的内容抓取(数据抓取)
3. 对HTML页面的数据提取(数据提取)
4. Scrapy框架以及scrapy-redis分布式策略(第三方框架)
6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....