爬虫 - 走看看

zoukankan html css js c++ java

爬虫

一、什么是爬虫？

　　爬虫：一段从互联网上自动爬取对我们有价值的数据的程序

二、Python爬虫架构

Python爬虫架构主要由五个部分组成，分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序（爬取有价值信息的程序）

　　调度器：相当于一台电脑的CPU，主要负责调度 URL 管理器、下载器、解析器之间的协调工作

　　URL 管理器：包括待爬取的URL地址和一爬取的URL地址，防止重复爬取和循环抓取 URL，实现 URL 管理器主要使用单中方式：内存、数据库、缓存数据库来实现

　　网页下载器：通过传入一个 URL 来下载网页，将网页转换成一个字符串，网页下载器有 urllib2（python官方基础模块）包括需要登录、代理、和cookie、requests（三方包）

　　网页解析器：将一个网页字符串惊醒解析，可以按照我们的要求来提取出我们有用的信息，也可以根据 DOM树的解析方式来解析，网页解析器有正则表达式（直观，将网页转换成字符串通过模糊匹配的方式类提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常困难），html.parser(Python自带的)，beautifulSoup（第三方插件）、lxml（第三方插件，解析 Xml 和 HTML），都是以DOM树的方式进行解析

　　应用程序：就是从网页中提取有用数据组成的一个应用

查看全文

相关阅读:
总公司路由排错？
黄永成-thinkphp讲解-个人博客讲解26集
 fedora配置网络
 只有文本编辑器才是王道, 什么ide都是evil的浮云, 看看linus linux的内核开发工具vim emacs
痛苦的事, 伤心的事, 一生只需要一次, 别折腾, 别忘痛- 人生, 软件, 所有人皆如是!
我再也不-或许永远不-用zend studio-受够了!
linux安装-版本选择-终极决定
 黄永成-thinkphp讲解-个人博客讲解25集
 linux的多媒体播放软件版权问题
 如何解决winows启动后出现grub?

原文地址：https://www.cnblogs.com/jcjc/p/11124628.html

爬虫

一、什么是爬虫？

二、Python爬虫架构