爬虫开发过程 - 走看看

zoukankan html css js c++ java

爬虫开发过程
看了之前几款采集器，发现了一些共同点

采集器一般由3个部分组成主程序，采集规则，入库模块

主程序负责解析和采集规则

流程如下

　采集规则包含了需要采集网站的url，内容提取和处理，一般由正则表达式，xpath等组成
　　　
参数设置规则：url=http://xxx.html?page={$0} http请求设置：编码=utf-8 Cookie=xxx 内容选择规则：json选择规则，regex匹配规则，xpath选择规则数据处理：html解码，url解码，htm标签清除
　　入库模块将采集到的数据保存到数据库或发布到网站

　　
　　　　数据库导出：sqlserver,mysql,sqlite,mongodb 　　　　发布到网站程序：dedecms，discuz，phpcms
查看全文

相关阅读:
Atcoder Tenka1 Programmer Contest 2019 D Three Colors
Codeforces 1146E Hot is Cold
ZOJ 3820 Building Fire Stations
ZOJ 3822 Domination
ZOJ 3949 Edge to the Root
Codeforces 1144G Two Merged Sequences
PTA 团体程序设计天梯赛 L3-020 至多删三个字符
 BZOJ 5102: [POI2018]Prawnicy
BZOJ 1045: [HAOI2008] 糖果传递
 2017-2018 ACM-ICPC, Asia Tsukuba Regional Contest

原文地址：https://www.cnblogs.com/Gool/p/9261405.html

Copyright © 2011-2022 走看看