zoukankan      html  css  js  c++  java
  • 简单了解下四种爬虫类型

    了解一下,爬虫可以分为以下四种类型:

    • 聚焦网络爬虫(主题网络爬虫): 会针对某种特定的内容去爬取信息,且会保证信息和需求尽可能相关。
    • 通用爬虫(全网爬虫):广度优先策略或深度优先策略  

      获取url,根据url爬页面后获取新url,在根据新url获取新新url,满足条件时停止爬取。

    • 增量抓取:通过爬虫程序检测某网站数据更新情况,一遍可以爬取到该网站更新后的新数据。
    • 适用场景--目标网站在原有网页数据基础上更新一批数据
    • 表层网页:不需要提交表单,适用静态链接访问的静态页面。
    • 深层网页:不能通过静态链接直接获取,需要提交一定的关键词后才能获取到的页面。  

    参考:https://mp.weixin.qq.com/s/J8NYr1l64_kuUagLIGqUag

  • 相关阅读:
    dubbo注册zookeeper保错原因
    Django 终端打印SQL语句
    Django 的orm模型
    Django 的路由系统
    Django 开端
    前端 jq的ajax请求
    前端 后台
    前端 JQ操作
    前端 链式操作
    前端 JQ事件操作
  • 原文地址:https://www.cnblogs.com/smallzhen/p/14552878.html
Copyright © 2011-2022 走看看