zoukankan      html  css  js  c++  java
  • 使用八爪鱼采集所需信息

    目标网址:http://www.51eliao.com/WinBidType.aspx?typeid=0

    地区:【郴州市】

    最终表格所需表头:采集网址 医院名称 省 市 中标时间 项目名称 项目编号 供应商名称 供应商地址 联系人 联系电话 产品 品牌 厂家 规格型号 数量 单价 金额(元)

    页面中能获取的信息:采集网址 中标时间 项目名称

    自己规定的信息:医院名称 省 市 

    Let's begin~

    修改字段:点击图标【笔】进行修改字段(即表头)

    拖动字段位置:鼠标按住字段(如——12345678——共848页—连接)前的6个点(两列点点)拖动

     删除不需要的字段(如【——12345678——共848页1】),把需要的字段改名(【采集网址】、【项目名称】)

     页面中能获取的信息:【采集网址】、【中标时间】(下一个就是你!)、【项目名称】

     鼠标移动到①的位置,点击,出现②,确定

     

     修改字段名后,

     页面中能获取的信息:【采集网址】√ 、【中标时间】√ 、【项目名称】√

    接下来添加固定字段

    自己规定的信息:【医院名称 】【省 】【市】

     

     【省】、【市】的操作与【医院名称】一致

     现在我们已经得到了6个字段!

     

    页面中能获取的信息:采集网址 中标时间 项目名称

    自己规定的信息:医院名称 省 市 

    剩下的部分只需要表头,不需要数据【项目编号 供应商名称 供应商地址 联系人 联系电话 产品 品牌 厂家 规格型号 数量 单价 金额(元)】

    操作跟【医院名称】差不多,如图:

     最终有18个字段,可以从左侧的【采集流程】,点小齿轮

     

     进入以下界面

     -----------------------------------------------------到此为止,表格头和已知信息已出。------------------------------------------------------

    接下来是筛选机制啦~

    刚才的界面拉到底,看到【触发器】,点击【新建触发】

    这个小实验中,只有【采集网址】、【中标时间】、【项目名称】从网页上获取,多变

    所以在这3个里设定触发条件。

     我是根据【项目名称】筛选的。

     

    ---------------------------到此为止,触发条件结束啦--------------------------------

    最后是优化采集,因为规定地区为【郴州市】,所以先搜索【郴州市】再采集中标信息更加便捷。

    不规定,遍历848页;规定后,遍历66页。

    更新!在【公告名称】中输入【所需要的医院名称】,速度更快!

    左侧流程图出现下图:

     

     

     

     

    再把这个操作步骤放到上面,因为我之前就有了,所以数字标没对上号。

    ---------------------------流程配置完成------------------------------------

    最后就是采集了

     

     

     出来一个新窗口,是采集的,记下来只需要等待采集完成,会有弹框提示采集完成。

     弹框提示:

     有重复是会弹出 去重

     

     

     最后表格展示

     

    tips:

    字段名不变,修改文本的内容,如下

    我是固定值,下图所示

     

  • 相关阅读:
    详解Oracle安装与配置.
    如何做大规模软件的配置管理
    关于软件权限设置的一点心得体会
    使用RDLC报表(一)
    详细解析Linux scp命令的应用
    spring propertyplaceholderconfigurer
    hibernate ehcache
    由Eclipse内存不足谈谈JVM内存
    事务策略: API 层策略
    什么叫控制反转(IoC )
  • 原文地址:https://www.cnblogs.com/DLYQY/p/13789213.html
Copyright © 2011-2022 走看看