zoukankan      html  css  js  c++  java
  • 爬虫简介

    爬虫

    • 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本

    分类

    • 通用爬虫 : 通过一些种子URL爬取到一整张页面,主要用于大型搜索引擎和大型web服务提供商采集数据。
    • 聚焦爬虫 : 通过制订规则,只爬取特定的目标和数据
    • 增量式爬虫 : 对已经下载的网页采取增量式更新,只爬取新产生的或者已经发生变化的内容
    • 深层爬虫 : web页面按存在方式可以分为表层网页和深层网页
      • 表层网页指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的web页面。
      • 深层网页指得是大部分内容不能通过静态链接获取的,隐藏在表单后的,只有用户提交一些关键词才能获得的web页面。

    风险

    • 爬虫干扰了被访问网站的正常运营
    • 爬虫爬取了受法律保护的特定类型的信息

    规避风险

    • 严格遵守网站的robots协议(可以通过根url/robots.txt打开)
    • 爬取时控制频率,避免干扰到被访问网站的正常运行
    • 抓取的内容属于个人信息,隐私或商业机密的应该及时删除

    基本爬虫框架

    • 爬虫调度器 : 负责其他模块的协调
    • URL管理器 : 管理URL链接,维护已经爬取的URL和未被爬取的URL地址
    • HTML下载器 : 从URL管理器中获取未被爬取的URL链接并下载HTML网页
    • HTML解析器 : 从HTML下载器中获取已经下载的HTML网页并解析出新的URL链接交给URL管理器
    • 数据存储器 : 用于将HTML解析器中解析出的数据通过文件或数据库的方式存储起来
  • 相关阅读:
    Python装饰器
    Python导模块问题
    selenium定位元素提示‘元素不可见’问题解决方法
    Python导入模块Import和from+Import区别
    关于iframe切换的问题
    Python+selenium 模拟wap端页面操作
    使用Pytesseract+TesseractOCR识别图片的简单步骤
    通过cookie绕过验证码登录
    oo第三次作业——项目的问题与反思
    Java_第二次作业:项目构思与实现
  • 原文地址:https://www.cnblogs.com/dalaolz/p/10969830.html
Copyright © 2011-2022 走看看