zoukankan html css js c++ java

爬虫的分类

爬虫的分类

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型

通用网络爬虫：全网爬虫，爬取对象有种子URL扩展到整个网络
聚焦网络爬虫：又称主题网络爬虫是指选择性地爬行那些与预先定义好的主体页面相关的网络爬虫
增量式网络爬虫：对已爬取的网页进行增量式更新或只爬行新产生的或者已经发生变化网页的爬虫
深层网络爬虫

实际的网络爬虫是集中爬虫技术相结合实现的

下面对这几种爬虫进行详细的介绍

名称	场景	特点	缺点
通用网络爬虫	门户站点搜索引擎、大型Web服务提供商采集数据	爬行范围和数量巨大、爬行页面顺序要求低、并行工作方式，爬取互联网上的所有数据	爬虫速度和存储空间要求高、刷新页面的时间长
聚焦网络爬虫	又称主题网络爬虫，只爬行特定的数据，商品比价	极大节省了硬件和网络资源，页面更新快
增量式网络爬虫	只抓取刚刚更新的数据	数据下载量少，及时更新已爬行的网页，减少时间可空间上的耗费、爬取到的都是最新页面	增加了爬行算法的复杂度和实现难度
深层网络爬虫		大部分内容不能通过静态链接获取，隐藏在搜索表单后，用户提交一些关键词才能获得

查看全文

相关阅读:
单例
 淘宝在数据处理领域的项目及开源产品介绍 | 岭南六少
 数据库垂直拆分，水平拆分利器，cobar升级版mycat
基于Gtid的mysql主从复制和 mysql-proxy 读写分离
 几行lua代码计算http包总长度_指甲锉_新浪博客
 使用Lua和OpenResty搭建验证码服务器
 测试比json更快更小的二进制数据传输格式Msgpack [pythono MessagePack 版本]
使用 HAProxy, PHP, Redis 和 MySQL 轻松构建每周上亿请求Web站点
 nginx+lua+redis实现验证码防采集
 OpenResty(Nginx)+Lua+GraphicsMagick实现缩略图功能 | 琥珀志

原文地址：https://www.cnblogs.com/juddy/p/13144987.html

Copyright © 2011-2022 走看看