爬虫简介

zoukankan html css js c++ java

爬虫简介
爬虫
- 网络爬虫是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本
分类
- 通用爬虫 : 通过一些种子URL爬取到一整张页面，主要用于大型搜索引擎和大型web服务提供商采集数据。
- 聚焦爬虫 : 通过制订规则，只爬取特定的目标和数据
- 增量式爬虫 : 对已经下载的网页采取增量式更新，只爬取新产生的或者已经发生变化的内容
- 深层爬虫 : web页面按存在方式可以分为表层网页和深层网页
  
  表层网页指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的web页面。
  
  深层网页指得是大部分内容不能通过静态链接获取的，隐藏在表单后的，只有用户提交一些关键词才能获得的web页面。
风险
- 爬虫干扰了被访问网站的正常运营
- 爬虫爬取了受法律保护的特定类型的信息
规避风险
- 严格遵守网站的robots协议(可以通过根url/robots.txt打开)
- 爬取时控制频率，避免干扰到被访问网站的正常运行
- 抓取的内容属于个人信息，隐私或商业机密的应该及时删除
基本爬虫框架
- 爬虫调度器 : 负责其他模块的协调
- URL管理器 : 管理URL链接，维护已经爬取的URL和未被爬取的URL地址
- HTML下载器 : 从URL管理器中获取未被爬取的URL链接并下载HTML网页
- HTML解析器 : 从HTML下载器中获取已经下载的HTML网页并解析出新的URL链接交给URL管理器
- 数据存储器 : 用于将HTML解析器中解析出的数据通过文件或数据库的方式存储起来
查看全文

相关阅读:
打印从1到最大的n位数
 TCP/IP协议
 函数指针做函数参数
 Ubuntu系统扩大/home分区
 《一切都准时》一首非常有意思的小诗
 阿里云服务器编译安装Hadoop 2.7.4 伪分布式环境
 C++中的string类型占用多少个字节
 使用apt-file安装需要的软件包或者库文件
 剑指offer之【表示数值的字符串】
剑指offer之【正则表达式】☆

原文地址：https://www.cnblogs.com/dalaolz/p/10969830.html

爬虫

分类

风险

规避风险

基本爬虫框架