zoukankan      html  css  js  c++  java
  • 【网站爬虫】八爪鱼使用和爬虫管理

      该文是很久之前驻点其他部门写的指南,主要是利用该工具将需要的内容爬下来。唯一的缺陷就是需要登录UI界面手动抓取,相对自动化接口抓取要复杂,但是上手难度低。

    1. 安装八爪鱼,再官网下载八爪鱼,然后一直next安装即可。官网下载地址:http://www.bazhuayu.com/download
    2. 启动八爪鱼,输入账号/密码
    3. 选择任务,点击新建按钮,再选择自定义采集

        

        

       4.点击保存,进入我们需要采集的网址页面

        

       5.采集信息之间,希望可以理解一下采集的流程:

           例如:

                          新闻1

                          新闻2

                          新闻3

                                 ….

                                                                       首页  上一页  下一页   共XX页,共YY条新闻

          

          这是一般新闻的栏目,如果我们需要YY条新闻时,我们需要构造循环条件,首先第一个循环是 “下一页”,让八爪鱼模拟鼠标一直点击下一页,直至到最后一页;

                 然后我们再构造一个在本页的循环条件:将本页的所有新闻全部都点击一边;

                 最后我们进入某一篇新闻,再来采集相关信息。

          (下面有实际操作步骤)

       6.采集循环信息:

        

         

         

      

       7.最后进入到新闻时,我们才开始采集我们需要采集的内容:

          

          

         

        8.关于内容的采集问题:采集新闻内容时,我建议选择以下这种方式最好

           

          

         

        9.针对内容采集的自定义修改:  

          打开流程:

          

          

           

        10.点开流程,左侧显示流程图:可以根据需要来修改流程内容

          

            

           

        

        11.修改字段内容:根据采集到对应的key名填写字段名

          

    TILE_KEY_NAME

    Varchar(10)

    采集的标题对应的KEY

    DETAIL_KEY_NAME

    Varchar(10)

    采集的内容对应的KEY

    SOURCE_KEY_NAME

    Varchar(10)

    采集信息来源对应的KEY

    CREATED_TIME_KEY_NAME

    Varchar(10)

    采集发布时间对应的KEY

    ADDRESS_KEY_NAME

     

     

        12.保存采集内容:点击开始采集

            

         

        13.选择云采集的API:可以根据八爪鱼tigong

            

  • 相关阅读:
    asp.net mvc 路由检测工具
    asp.net mvc 通过StyleBundle添加样式后,没有作用
    mssql for xml path使用
    vs2013在使用ef6时,创建模型向导过程中,四种模型方式缺少2种
    Enterprise Craftsmanship
    对于已经添加引用,还找不到类型或名字空间的错误及svn客户端清除用户帐号密码
    Hadoop Yarn环境配置
    mac和Linux的环境变量设置
    文本分类入门(十)特征选择算法之开方检验
    ERROR 2003:Can't connect to MySQL server on 'localhost'
  • 原文地址:https://www.cnblogs.com/mumushizhige/p/12027581.html
Copyright © 2011-2022 走看看