关于爬虫数据的解析器设计

zoukankan html css js c++ java

关于爬虫数据的解析器设计
一、为什么要设计解析器

我的七月小说网肯定不止爬单个站点的，每新增一个站点或者网页dom发生变化就得修改代码，多累哦。
所以我决定弄个数据解析器。

二、设计思路

下面是一个通用的解析规则对象
```
"parse": {
    "select": ".book-info h1 em",//通过BeautifulSoap 的select选择器，通过传入不同的解析规则（标签、className、id）等取出数据容器。
    "index": 0,//容器的索引位置
    "isList": false, //容器类型
    "func": "text", //预置的数据解析函数
    "state": 1, //解析规则状态
    "siteId": 1 //源站点对应id
}
```
1.首先确定解析器待获取的数据的类型和字段；
2.通过目标html dom节点确定select值；
3.根据数据类型判断容器类型是否是单个还是多个；
4.选择合适的预置数据处理function；

三、实例

以一个book对象举个例子：
现在要获取bookId, bookName, cover, author, summary, chapters, tags等这些数据。
1.把数据理出来：
```
book{
    bookId: String!
    bookName: String!
    cover: String!
    author: String
    summary: String
    chapters: List
    tags: List
    ...
}
```
2.为每个字段设计解析规则
下面是两个典型字段的解析
```
bookNameParse{
    select: ".book-info h1 em",
    index: 0,
    func: 'text',
    isList: false //容器类型
}
chaptersParse{
    select: ".catalog-content-wrap .volume-wrap .cf li a",
    func: 'list', //预置的数据解析函数  
    isList: true //容器类型
}
```
四、缺点

所有节点都在整个html dom中选择，可能会导致程序冗余；
程序设计更加复杂化了；
需要更多优化才能保持高可用性；
需要后台管理系统添加解析规则；

五、继续优化

1.添加解析规则的时候，强制校验解析规则的有效性；
2.为解析规则添加状态标记：

正常：解析规则正常运转
待修改：源网页html dom结构发生变化，需要修改；
废弃：不再使用此解析规则
查看全文

相关阅读:
解决Sqlite Developer过期的最简单办法(转自百度经验)
(转)解决！Visual Studio 遇到了异常。这可能是由某个扩展导致的。
【转】VC中的class“std::vector<_Ty>”需要有 dll 接口由 class“Test”的客户端使用错误
 切换日语输入法找不到MicrosoftIME键盘选项了
 ps如何拆分图片
 码农应该注意保持的习惯
 "指定的文件格式无法识别或为不支持的二进制"
编译FlashDemo遇到问题:Error "pFlashUI未定义的标识符"
GridView,GridLayout
Android,ArrayList,List,Set等

原文地址：https://www.cnblogs.com/jiajin/p/8478450.html

关于爬虫数据的解析器设计

一、为什么要设计解析器

二、设计思路

三、实例

四、缺点

五、继续优化