zoukankan      html  css  js  c++  java
  • WPF CefSharp 爬虫

    1、实际需求
                 EMS邮件的自动分拣,要分拣首先需要获取邮件的面单号和邮寄地址,现在我们的快递一般都有纸质面单的,如果是直接使用图像识别技术从纸质面单中获取信息,这个开发的成本和实时性都很难保证,获取信息之后还要分别处理,出口件要分到全国的对应地区,进口件要分到所在地区的各个小区。所以要提前获取面单号和邮寄地址两个关键信息,处理完之后,直接把面单号和地址信息传给分拣设备。
     
    2、客观情况
                 邮政系统有自己的内网,办公系统,有查询的页面,暂时没有提供相关的接口开发,看来只能通过爬虫的相关技术获取这些关键信息了。
     
    3、CefSharp(WPF)
                 比较了解C#,这次准备用WPF来开发,之前用CefSharp做过一些混合开发,Html来做页面,后台用C#,可以访问一些本地资源,觉得这种组合比较适合我。看到这个需求,首先就是想到了用CefSharp来访问他们的内网系统,然后写JS来自动实现浏览页面,嵌入自定义的 funciton,访问后台的C#代码,保存需要的信息。
     
    4、具体实现
                 使用 CefSharp 的Browser.RegisterJsObject 注册自定义的 funciton ,这个一步是整个爬虫的重中之重,这样之后,就相当于可以控制浏览器的访问逻辑了,可以按照我们自己的设计流程来运行,这里面到底是如何运用和能发挥的能量,只取决于你的想象力。
       
    1)注册自定义 function
     
    2) 可以在 JS中访问的后台C#代码
     
    3)JS中调用自定义funciton
     
     
    5、总结
                   整个过程中的关键环节是要让爬取的那个页面能访问到后台C#代码,CefSharp在爬虫中就相当于航空母舰级别的存在,是一个重量级的武器,可以不用自己写正则获取数据,它已经帮你解析好了,只用写JS脚本就可以了。

  • 相关阅读:
    JAVA面试——设计模式
    CSS清除浮动
    CSS外边距
    baidu-ife
    笔记一则
    Atom
    校园网认证
    四月甘九-省
    Python sys.argv[]用法
    Python模块导入的方法
  • 原文地址:https://www.cnblogs.com/EllisQian/p/11879149.html
Copyright © 2011-2022 走看看