zoukankan      html  css  js  c++  java
  • 使用八爪鱼采集所需信息

    目标网址:http://www.51eliao.com/WinBidType.aspx?typeid=0

    地区:【郴州市】

    最终表格所需表头:采集网址 医院名称 省 市 中标时间 项目名称 项目编号 供应商名称 供应商地址 联系人 联系电话 产品 品牌 厂家 规格型号 数量 单价 金额(元)

    页面中能获取的信息:采集网址 中标时间 项目名称

    自己规定的信息:医院名称 省 市 

    Let's begin~

    修改字段:点击图标【笔】进行修改字段(即表头)

    拖动字段位置:鼠标按住字段(如——12345678——共848页—连接)前的6个点(两列点点)拖动

     删除不需要的字段(如【——12345678——共848页1】),把需要的字段改名(【采集网址】、【项目名称】)

     页面中能获取的信息:【采集网址】、【中标时间】(下一个就是你!)、【项目名称】

     鼠标移动到①的位置,点击,出现②,确定

     

     修改字段名后,

     页面中能获取的信息:【采集网址】√ 、【中标时间】√ 、【项目名称】√

    接下来添加固定字段

    自己规定的信息:【医院名称 】【省 】【市】

     

     【省】、【市】的操作与【医院名称】一致

     现在我们已经得到了6个字段!

     

    页面中能获取的信息:采集网址 中标时间 项目名称

    自己规定的信息:医院名称 省 市 

    剩下的部分只需要表头,不需要数据【项目编号 供应商名称 供应商地址 联系人 联系电话 产品 品牌 厂家 规格型号 数量 单价 金额(元)】

    操作跟【医院名称】差不多,如图:

     最终有18个字段,可以从左侧的【采集流程】,点小齿轮

     

     进入以下界面

     -----------------------------------------------------到此为止,表格头和已知信息已出。------------------------------------------------------

    接下来是筛选机制啦~

    刚才的界面拉到底,看到【触发器】,点击【新建触发】

    这个小实验中,只有【采集网址】、【中标时间】、【项目名称】从网页上获取,多变

    所以在这3个里设定触发条件。

     我是根据【项目名称】筛选的。

     

    ---------------------------到此为止,触发条件结束啦--------------------------------

    最后是优化采集,因为规定地区为【郴州市】,所以先搜索【郴州市】再采集中标信息更加便捷。

    不规定,遍历848页;规定后,遍历66页。

    更新!在【公告名称】中输入【所需要的医院名称】,速度更快!

    左侧流程图出现下图:

     

     

     

     

    再把这个操作步骤放到上面,因为我之前就有了,所以数字标没对上号。

    ---------------------------流程配置完成------------------------------------

    最后就是采集了

     

     

     出来一个新窗口,是采集的,记下来只需要等待采集完成,会有弹框提示采集完成。

     弹框提示:

     有重复是会弹出 去重

     

     

     最后表格展示

     

    tips:

    字段名不变,修改文本的内容,如下

    我是固定值,下图所示

     

  • 相关阅读:
    Linux零拷贝技术 直接 io
    纯Python模式
    c 越界 数组越界
    哈希 二叉树
    Cache busting
    sub esp
    lisp 代码即数据
    hexdump
    nmap
    对象 闭包
  • 原文地址:https://www.cnblogs.com/DLYQY/p/13789213.html
Copyright © 2011-2022 走看看