2.01_Python网络爬虫概述

zoukankan html css js c++ java

2.01_Python网络爬虫概述
一：什么是网络爬虫

　　网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取网络信息的程序或者脚本；

二：为什么要做网络爬虫？

　　大数据时代，要进行数据分析，首先要有数据源，数据从何而来？

　　在进行大数据分析或者进行数据挖掘的时候，数据源可以从某些提供数据统计的网站获得，也可以从某些文献或内部资料中获得，但是这些获得数据的方式，

有时很难满足我们对数据的需求，而手动从互联网中去寻找这些数据，则耗费的精力过大。此时就可以利用爬虫技术，自动地从互联网中获取我们感兴趣的数据内

容，并将这些数据内容爬取回来，作为我们的数据源，从而进行更深层次的数据分析，并获得更多有价值的信息。

　　比如说：　　　　　
- 企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
- 数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所
- 政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。
- 数据管理咨询公司：麦肯锡、埃森哲、艾瑞咨询
　　而学习爬虫，可以让我们获取更多的数据源，并且这些数据源可以按我们的目的进行采集，去掉很多无关数据。

三：浏览器请求URL:

　　当用户输入网址之后，经过DNS服务器，找到服务器主机，然后向服务器发出请求，服务器经过解析之后，发送给用户的浏览器HTML、JS、CSS等文件，

浏览器解析出来，便看到形形色色的图片，因此，用户看到的网页实质是由HTML代码构成的，爬虫爬来的正是这些内容，通过分析过滤和谐HTML代码，实现对

图片、文字等资源的获取；

四：关于网络爬虫

　　1. Python基础语法学习（基础知识）

　　2. 对HTML页面的内容抓取（数据抓取）

　　3. 对HTML页面的数据提取（数据提取）

　　4. Scrapy框架以及scrapy-redis分布式策略（第三方框架）

　　6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....
查看全文

相关阅读:
动态规划之矩阵连乘
 常见的开放符号服务器
 QT中的宏定义
 QT Creator项目路径设置
 批处理-日常小功能用法记录
 Qt Creator快捷键记录
 利用Navicat premium实现将数据从Oracle导入到MySQL
php BCmath 封装类
 PHP 反射类
 Html标签生成类

原文地址：https://www.cnblogs.com/yaboya/p/9000076.html