zoukankan      html  css  js  c++  java
  • 网络爬虫的几种常见类型

    常见的优秀网络爬虫有一下几种类型:

    1.批量型网络爬虫:限制抓取的属性,包括 抓取范围,特定目标,限制抓取时间,限制数量以及相知抓取页面,总之明显的特征就是受限,

    2.增量网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无之直到抓取万所有的数据,这种类型一般用于搜索引擎的网站或程序。

    3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限西华的增量网络爬虫,可以细致的对诸如行业,内容,发布时间,页面大小等很多因素进行筛选。

    这些爬虫的功能不一,使用的方法也不同,例如谷歌,百度搜索就使用的增量爬虫,提供大而全的内容雷满足世界各地的用户,另外,天猫,京东很多店铺需要屏蔽外来的抓取,这时就需要爬虫爬虫根据一些低级域名的连接来抓取他们进行排名。

  • 相关阅读:
    查找链表中是否有环linked-list-cycle
    reverse-integer
    AVL树之 Java的实现
    single-number
    Best Time to Buy and Sell Stock II
    maximun-depth-of-binary-tree
    minimun-depth-of-binary-tree
    剑指offer--矩阵中的路径
    grep的几个参数
    fsck和badlocks
  • 原文地址:https://www.cnblogs.com/jcjc/p/11027433.html
Copyright © 2011-2022 走看看