zoukankan      html  css  js  c++  java
  • 爬虫开发过程

    看了之前几款采集器,发现了一些共同点

    采集器一般由3个部分组成 主程序,采集规则,入库模块

    主程序负责解析和采集规则

    流程如下

     采集规则包含了需要采集网站的url,内容提取和处理,一般由正则表达式,xpath等组成
       

    	参数设置规则:url=http://xxx.html?page={$0}
    	http请求设置:编码=utf-8 Cookie=xxx
    	内容选择规则:json选择规则,regex匹配规则,xpath选择规则
    	数据处理:html解码,url解码,htm标签清除

      入库模块将采集到的数据保存到数据库或发布到网站

      

        数据库导出:sqlserver,mysql,sqlite,mongodb
        发布到网站程序:dedecms,discuz,phpcms
  • 相关阅读:
    C语言考点例题解析
    五笔打字
    常用快捷键
    网络基础知识
    人口增长
    8 封装
    9 绑定方法和非绑定方法
    6 抽象类
    7 多态和多态性
    5 组合
  • 原文地址:https://www.cnblogs.com/Gool/p/9261405.html
Copyright © 2011-2022 走看看