爬虫学习（一）基础知识

zoukankan html css js c++ java

爬虫学习（一）基础知识
一、爬虫介绍

1、概念：爬虫就是模拟客户端发送网络请求，获取请求响应数据，一种按照一定的规则，自动地抓取互联网信息的程序。只要是浏览器能做的事情，原则上爬虫都能够做。

2、使用场景：主要用途是数据采集，爬虫是一种获取数据的重要手段。获取到数据后的用途主要有两个方面：进行数据分析或直接展示（比如百度新闻，就是从其他网站采集数据，然后展示）。

二、爬虫的分类

按照爬取范围分为两类：
- 通用爬虫：它将爬取对象从一些种子URL扩充到整个Web上的网站，主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。这类爬虫爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。
- 聚焦爬虫：选择性地爬取那些与预先定义好的主题相关的页面。与通用爬虫不同的是，聚焦爬虫只需要爬行与主题相关的页面，从而极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好的满足一些特定人群对特定领域信息的需求。
三、爬虫的工作流程

1、搜索引擎流程（通用爬虫）：
- 爬取范围：整个网络，见到URL就爬
- 保存数据：保存的是原始的HTML
- 预处理：主要是分词，排名
2、聚焦爬虫流程：
- 爬取范围：特定的URL，只有有需要的数据的URL才爬取。
- 保存的数据：保存的是需要的数据。
3、Robots协议

全称是网络爬虫排除标准，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，是一个道德层面的约定，爬虫开发者尊不遵守完全看自己意愿。

通常该协议文件会放置在网站的根目录下，比如淘宝网站的Robots文件在：https://www.taobao.com/robots.txt
查看全文

相关阅读:
SpringBoot-web场景-静态资源访问 & 欢迎页支持 & 自定义Favicon & 静态资源配置原理
 SpringBoot配置文件yaml文件的用法 & 自定义类绑定的配置提示
 设置 TabBarItem 选中时的图片及文字颜色
 iOS 9 使用HTTP的方法
 php单双引号嵌套解决方案
 github desktop项目版本控制
 数据库-内 | 左| 右| 全连接
 05_总结一下，以软件开发周期说明不同的测试使用
 04_用户需求自己产品竞争对手产品关系
 03_P52 课后作业

原文地址：https://www.cnblogs.com/chjxbt/p/11358865.html