zoukankan      html  css  js  c++  java
  • 【数据采集平台】教程-列表页采集

    使用教程——列表页采集

    当前版本

    测试版

    列表页采集

    功能

    采集列表类型页面。列表类型是指:一个页面中只包含多条采集信息的页面,例如豆瓣影评列表:https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P , 这样的页面往往包含了分页信息,需要进行分页采集。

    使用

    打开“配置中心” > “新建爬虫” > “列表页类型” 菜单,进入爬虫配置界面:

    基本配置:

    是否必填 说明 示例
    爬虫名字 任意字符,不可与以有的爬虫名称重复 豆瓣影评采集
    采集源 采集的网站名称 豆瓣
    源页面 要采集的源链接,必须为规范的url,且必须包含一个页变量 https://movie.douban.com/subject/26266893/comments?start={page}&limit=20&sort=new_score&status=P
    起始页 起始页码 1
    结束页 结束页码 10
    页增量 页码的增量,默认为1,针对于某些以非页数参数分页的,而是用数据起始位置分页的情况,例如豆瓣影评列表就是如此 20
    线程数 一个爬虫所启用的线程数,最大值为3 1
    允许JS 启用JS可以采集动态网页,但是采集速度将会变慢,默认不启用 不启用
    描述 任意值,对爬虫的表述 这是一个微信文章爬虫

    基本配置完成后,点击“下一步”进行采集规则配置。

    页变量说明:

    页变量是为了自动分页采集而要求的,页变量必需为“{变量名}”的形式,变量名可以任意,系统将自动替换变量为页码。

    举例:

    《流浪的地球》豆瓣影评列表第二页的URL为:https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P ,这里的start=20即为分页参数,20表示当前页的第一条数据的偏移量为20。设置页变量为page,则符合规范的url如下:https://movie.douban.com/subject/26266893/comments?start={page}&limit=20&sort=new_score&status=P

    页增量说明:

    页增量是针对于某些以非页数参数分页的,而是用数据起始位置分页的情况。例如上边举例的

    配置规则:

    是否必填 说明 示例
    字段code 采集字段唯一标识,同一个爬虫中的字段code不可重复 title
    字段标题 采集字段唯的名称 文章标题
    采集规则 采集规则,使用css选择器,很重要。 .div > .title
    采集类型 TEXT:采集文本内容,HTML:采集HTML内容,ATTR:采集属性值,当选择ATTR时,下面的属性值必填 TEXT
    属性值 当采集类型为ATTR时必填,其他情况不填 href
    非空字段 是否为非空字段,若是,则当该字段为空时,数据将不会被保存
    去重字段 是否是去重字段,若是则会更具该字段进行去重,重复的数据将不会被保存

    配置完成

    采集规则配置完成后,点击“下一步”,选择“保存”或者“启动爬虫”。“保存”将不会启动爬虫,需要在“数据采集” > “状态管理” 中找到刚配置的爬虫,点击“启动”。

  • 相关阅读:
    MySQL第七课
    MySQL第六课
    mysql第五课
    MySQL第四课
    MySQL第三课
    MYSQL第一课
    MYSQL第二课
    char、vchar、nvarchar 的区别
    SSRS Reporting Service安装与部署
    存储过程用法
  • 原文地址:https://www.cnblogs.com/cnsec/p/13286638.html
Copyright © 2011-2022 走看看