zoukankan      html  css  js  c++  java
  • 爬虫基本概念

    爬虫基本概念

    一.爬虫的概念

    网络爬虫又称为网络蜘蛛,网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或脚本

    二.爬虫的分类

    通常可以按照不同的维度对网络爬虫进行分类;按照使用场景,可将爬虫分为通用爬虫聚焦爬虫;按照爬取形式,可分为累积式爬虫增量式爬虫;按照爬取数据的存在方式,可分为表层爬虫深层爬虫

    1.通用爬虫和聚焦爬虫

    通用爬虫是搜索引擎爬取系统(Baidu,Google等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份;聚焦爬虫是"面向特定主题需求"的一种网络爬虫程序

    通用爬虫

    通用爬虫又称为全网爬虫,它将爬取对象从一些种子URL扩充到整个网络,主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据

    通用爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低.同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面

    聚焦爬虫

    聚焦爬虫又称为主题网络爬虫,是指选择性爬行那些与预先定义好的主题相关的页面的网络爬虫

    2.累积式爬虫和增量式爬虫

    累积式爬虫

    累积式爬虫是指从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页

    增量式爬虫

    增量式爬虫是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取,以保证所爬取到的数据与真实网络数据足够接近.进行增量式爬取的前提是:系统已经爬取了足够数量的网络页面,并具有这些页面被爬取的时间信息

    累积式爬取一般用于数据集合的整体建立或大规模更新阶段;而增量式爬取则主要针对数据集合的日常维护与即使更新

    3.表层1爬虫和深层爬虫

    表层爬虫

    爬取表层网页的爬虫叫作表层爬虫.表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面

    深层爬虫

    深层网页是那些大部分内容不能通过静态链接获取到,隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面.例如用户注册后内容才可见的网页就属于深层网页

    深层爬虫过程中最重要的部分就是表单填写,包含两种类型:

    1. 基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单
    2. 基于网页结构分析的表单填写:此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段的值
  • 相关阅读:
    Zend框架2入门(二) (转)
    Zend框架2入门(一) (转)
    PHP Strict standards:Declaration of … should be compatible with that of…(转)
    ::符号
    mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法(转)
    php 获取今日、昨日、上周、本月的起始时间戳和结束时间戳的方法(转)
    PHP5.4新特性(转)
    PHP5.4的变化关注---What has changed in PHP 5.4.x(转)
    关于PHP的curl开启问题 (转)
    安装apache重启的时候,报错端口被占用,错误1
  • 原文地址:https://www.cnblogs.com/LQ6H/p/12940573.html
Copyright © 2011-2022 走看看