zoukankan      html  css  js  c++  java
  • 网络爬虫通用策略

    1、通用爬虫框架:

    选取种子URL-》放入待抓取URL队列-》下载网页形成网页库-》已抓取URL队列-》抽取URL放入待抓取URL队列末尾

    已下载网页集合 == 已过期网页集合 == 待下载网页集合 == 可知网页集合 == 不可知网页集合

    2、禁抓协议:爬虫禁抓协议(robot.txt) + 网页禁抓协议(html中嵌入<meta name='robots') 两类

    3、衡量标准:网页覆盖率、网页时新性、网页重要性

    4、抓取策略:宽度优先遍历策略、非完全pagerank策略、OPIC策略、大站优先策略

    5、网页更新策略:历史参考策略、用户体验策略、聚类抽样策略

    6、暗网抓取:百度『aladdin』 google『富含信息查询模板+ISIT算法』

    7、分布式集群爬虫:主从式、对等式(利用一致性hash算法)

  • 相关阅读:
    Valid Anagram
    Spiral Matrix II
    Spiral Matrix
    Kth Smallest Element in a BST
    Count Primes
    javascript 判断浏览器
    javascript 数值交换技巧
    EntityFramework 6 分页模式
    JSON.parse 和 JSON.stringify
    CSS z-index
  • 原文地址:https://www.cnblogs.com/snailrun/p/5570550.html
Copyright © 2011-2022 走看看