zoukankan      html  css  js  c++  java
  • 关于爬虫数据的解析器设计

    一、为什么要设计解析器

    我的七月小说网肯定不止爬单个站点的,每新增一个站点或者网页dom发生变化就得修改代码,多累哦。
    所以我决定弄个数据解析器。

    二、设计思路

    下面是一个通用的解析规则对象

    "parse": {
        "select": ".book-info h1 em",//通过BeautifulSoap 的select选择器,通过传入不同的解析规则(标签、className、id)等取出数据容器。
        "index": 0,//容器的索引位置
        "isList": false, //容器类型
        "func": "text", //预置的数据解析函数
        "state": 1, //解析规则状态
        "siteId": 1 //源站点对应id
    }
    

    1.首先确定解析器待获取的数据的类型和字段;
    2.通过目标html dom节点确定select值;
    3.根据数据类型判断容器类型是否是单个还是多个;
    4.选择合适的预置数据处理function;

    三、实例

    以一个book对象举个例子:
    现在要获取bookId, bookName, cover, author, summary, chapters, tags等这些数据。
    1.把数据理出来:

    book{
        bookId: String!
        bookName: String!
        cover: String!
        author: String
        summary: String
        chapters: List
        tags: List
        ...
    }
    

    2.为每个字段设计解析规则
    下面是两个典型字段的解析

    bookNameParse{
        select: ".book-info h1 em",
        index: 0,
        func: 'text',
        isList: false //容器类型
    }
    chaptersParse{
        select: ".catalog-content-wrap .volume-wrap .cf li a",
        func: 'list', //预置的数据解析函数  
        isList: true //容器类型
    }
    

    四、缺点

    所有节点都在整个html dom中选择,可能会导致程序冗余;
    程序设计更加复杂化了;
    需要更多优化才能保持高可用性;
    需要后台管理系统添加解析规则;

    五、继续优化

    1.添加解析规则的时候,强制校验解析规则的有效性;
    2.为解析规则添加状态标记:

    正常:解析规则正常运转
    待修改:源网页html dom结构发生变化,需要修改;
    废弃:不再使用此解析规则

  • 相关阅读:
    Pandas绘图不支持中文解决方案
    MVC模式
    解决import javafx.geometry.Point2D无法导入的问题
    初学linux时遇到的那些哭笑不得的问题
    啊啊我找不到web.xml怎么办呀~~
    解决JSP调用JavaBean出现乱码问题
    设置eclipse自动补全
    ubuntu下eclipse java ee首次打开提示找不到jdk的问题
    android webview 报 [ERROR:in_process_view_renderer.cc(189)] Failed to request GL process. Deadlock likely: 0 问题
    ubuntu创建文件夹桌面快捷方式
  • 原文地址:https://www.cnblogs.com/jiajin/p/8478450.html
Copyright © 2011-2022 走看看