zoukankan      html  css  js  c++  java
  • 爬虫

    一、什么是爬虫?

      爬虫:一段从互联网上自动爬取对我们有价值的数据的程序

    二、Python爬虫架构

    Python爬虫架构主要由五个部分组成,分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序(爬取有价值信息的程序)

      调度器:相当于一台电脑的CPU,主要负责调度 URL 管理器、下载器、解析器之间的协调工作

      URL 管理器:包括待爬取的URL地址和一爬取的URL地址,防止重复爬取和循环抓取 URL,实现 URL 管理器主要使用单中方式:内存、数据库、缓存数据库来实现

      网页下载器:通过传入一个 URL 来下载网页,将网页转换成一个字符串,网页下载器有 urllib2(python官方基础模块)包括需要登录、代理、和cookie、requests(三方包)

      网页解析器:将一个网页字符串惊醒解析,可以按照我们的要求来提取出我们有用的信息,也可以根据 DOM树的解析方式来解析,网页解析器有正则表达式(直观,将网页转换成字符串通过模糊匹配的方式类提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常困难),html.parser(Python自带的),beautifulSoup(第三方插件)、lxml(第三方插件,解析 Xml 和 HTML),都是以DOM树的方式进行解析

      应用程序:就是从网页中提取有用数据组成的一个应用

  • 相关阅读:
    phpstudy下允许所有的目录科访问
    fastadmin怎么自动生成框架目录
    优化数据库
    git操作是出现Username for 'https://github.com':的验证问题
    git上传命令步骤
    mysql 组合两张表
    删除重复的电子邮箱
    Neo4j
    opencv学习笔记(2
    opencv学习笔记(1)
  • 原文地址:https://www.cnblogs.com/jcjc/p/11124628.html
Copyright © 2011-2022 走看看