Linux企业级项目实践之网络爬虫（3）——设计自己的网络爬虫 - 走看看

zoukankan html css js c++ java

Linux企业级项目实践之网络爬虫（3）——设计自己的网络爬虫

网络抓取系统分为核心和扩展组件两部分。核心部分是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。目标是尽量的模块化，并体现爬虫的功能特点。这部分提供简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。
扩展组件部分提供一些扩展的功能，内置了一些常用的组件，便于对爬虫进行功能扩展。
蜘蛛主要功能模块如下：

调度器
调度器负责管理待抓取的URL，以及去重的工作。调度器使用内存队列来管理URL，并进行去重。
下载器
下载器是爬虫的基础。下载页面之后才能进行其他后续操作。
页面处理器
一般来说，我们最终需要的都不是原始的HTML页面。我们需要对爬到的页面进行分析，转化成结构化的数据，并存储下来
持久化器
持久化器负责抽取结果的处理，包括计算、持久化到文件、数据库等。

查看全文

相关阅读:
开更
 PKUSC2016
Educational Codeforces Round 12 E Beautiful Subarrays
省选过了，又开始更新了。。。
我来试试视频功能
 [BZOJ4407]于神之怒加强版
 bzoj3998: [TJOI2015]弦论
 bzoj4569: [Scoi2016]萌萌哒
 2016-5-30模拟测试
 2016-5-26模拟测试

原文地址：https://www.cnblogs.com/new0801/p/6177007.html

Copyright © 2011-2022 走看看