zoukankan      html  css  js  c++  java
  • python实战——网络爬虫

    学习网络爬虫的目的

    1,可以私人定制一个搜索引擎,可以深层次的了解搜索引擎的工作原理。

    2,大数据时代,要进行数据分析,首先要有数据源,学习爬虫,可以让我们获取更多的数据。

    3,从业人员可以可好的利用爬虫,了解其原理,更加优化你的程序。

    网络爬虫的组成

    网络爬虫由控制节点,爬虫节点,资源库构成

    爬虫的类型

    1,通用网络爬虫:又叫全网爬虫,可以在全网中爬取目标资源。

    2,聚焦网络爬虫:主要使用在对特定信息的爬取中,主要为莫一类特定的人提供服务。

    3,增量式网络爬虫:所谓增量式,就是之增量式更新,增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方不更新,所以增量式爬虫在一定程度上保证所爬取的页面尽可能的都是新页面。

    4,深层网络爬虫:所谓深层,指的是在互联网中,网页按存放方式分类,可以分为表层页面和深层页面,所谓的表层页面指的是不需要提交表单,使用静态的链接就可以达到的静态页面。而深层页面则需要在提交一定的关键词之后才能获取的页面。

  • 相关阅读:
    MVC之路由规则 (自定义,约束,debug)
    MCV之行为
    mvc之页面强类型
    Jquery异步上传图片
    三层VS控制器
    Oracle 表分区
    C#编写的通过汉字得到拼音和五笔码
    MYSQL存储过程学习
    Sina App Engine(SAE)入门教程(9)- SaeMail(邮件)使用
    状态CSS
  • 原文地址:https://www.cnblogs.com/carlos-mm/p/8819520.html
Copyright © 2011-2022 走看看