golang crawler - 走看看

zoukankan html css js c++ java

golang crawler

最近看了《Go并发编程实战》，学了最后一章的crawler。这是一个很好的demo, 设计功能完备，同时具有可扩展性。

根据学到的思路简单总结一下，同时重复发明一下轮子。

Version 01:

比如：我们想爬一下一个外贸网站所有的商品。

其中，有三个component,

(1) Downloader, 用来根据根据 request中的URL下载对应的页面。

(2) Analyzer 分析下载下来的页面，提取其中的商品信息，作为Item。同时提取其中内部链接

(3) Pipeline 对应后处理，我们可以对 Item信息做一系列后处理，比如提取商品名称、分类、价格等信息。对数据结构化结构化等一系列操作。

我们需要三个channel 分别装载Request, Response, Item。

version 02:

为了管理component, 我们引入了Pool；为了统一管理Channel，我们引入了ChannelManager。

我们只需要图中打上 √ 的组件来初始化我们的 crawler。

Version 03:

为了增加组建灵活性，Analyzer 中接受用户自定义处理函数，Piple 中接收用户自定义函数。

继续增加：

Log, error(包括time out) 处理

可以优雅的Start and Stop crawler

查看全文

相关阅读:
Android 表格布局
 Python 字符串操作分类
 设置Safari禁止访问某个网站
 java判断路径是文件夹还是文件
 java上下分页窗口流动布局
 Python获取网页html代码
 一次失败的java Box居中尝试
 装饰器进阶和迭代器
 函数对象补充，包函数与装饰器
 函数对象和名称空间

原文地址：https://www.cnblogs.com/harrysun/p/4145340.html

最新文章
find 命令详解
 inode 详解
 grep 命令详解
 ln 命令详解
 locate 命令详解
 tr 命令详解
 sort 命令详解
 C#attribute
C#委托
 C#索引器

Copyright © 2011-2022 走看看