zoukankan      html  css  js  c++  java
  • 【网站爬虫】八爪鱼使用和爬虫管理

      该文是很久之前驻点其他部门写的指南,主要是利用该工具将需要的内容爬下来。唯一的缺陷就是需要登录UI界面手动抓取,相对自动化接口抓取要复杂,但是上手难度低。

    1. 安装八爪鱼,再官网下载八爪鱼,然后一直next安装即可。官网下载地址:http://www.bazhuayu.com/download
    2. 启动八爪鱼,输入账号/密码
    3. 选择任务,点击新建按钮,再选择自定义采集

        

        

       4.点击保存,进入我们需要采集的网址页面

        

       5.采集信息之间,希望可以理解一下采集的流程:

           例如:

                          新闻1

                          新闻2

                          新闻3

                                 ….

                                                                       首页  上一页  下一页   共XX页,共YY条新闻

          

          这是一般新闻的栏目,如果我们需要YY条新闻时,我们需要构造循环条件,首先第一个循环是 “下一页”,让八爪鱼模拟鼠标一直点击下一页,直至到最后一页;

                 然后我们再构造一个在本页的循环条件:将本页的所有新闻全部都点击一边;

                 最后我们进入某一篇新闻,再来采集相关信息。

          (下面有实际操作步骤)

       6.采集循环信息:

        

         

         

      

       7.最后进入到新闻时,我们才开始采集我们需要采集的内容:

          

          

         

        8.关于内容的采集问题:采集新闻内容时,我建议选择以下这种方式最好

           

          

         

        9.针对内容采集的自定义修改:  

          打开流程:

          

          

           

        10.点开流程,左侧显示流程图:可以根据需要来修改流程内容

          

            

           

        

        11.修改字段内容:根据采集到对应的key名填写字段名

          

    TILE_KEY_NAME

    Varchar(10)

    采集的标题对应的KEY

    DETAIL_KEY_NAME

    Varchar(10)

    采集的内容对应的KEY

    SOURCE_KEY_NAME

    Varchar(10)

    采集信息来源对应的KEY

    CREATED_TIME_KEY_NAME

    Varchar(10)

    采集发布时间对应的KEY

    ADDRESS_KEY_NAME

     

     

        12.保存采集内容:点击开始采集

            

         

        13.选择云采集的API:可以根据八爪鱼tigong

            

  • 相关阅读:
    Xcode一些好用的插件,以及这些插件的管理器
    iOS证书说明和发布
    iOS开发—音乐的播放
    POJ 1287 Networking 【最小生成树Kruskal】
    HDU1233 还是畅通工程【最小生成树】
    POJ 1251 + HDU 1301 Jungle Roads 【最小生成树】
    128 编辑器 【双栈】
    154. 滑动窗口【单调队列】
    5. 多重背包问题 II 【用二进制优化】
    4. 多重背包问题 I
  • 原文地址:https://www.cnblogs.com/mumushizhige/p/12027581.html
Copyright © 2011-2022 走看看