zoukankan      html  css  js  c++  java
  • 分享一个近期写的简单版的网页采集器

    功能特点

    1、可通过配置,保存采集规则。

    2、可通过采集规则,进行数据采集。

    3、可分页,分关键字,进行采集。

    4、可保存数据至数据库,文本中。

    ...........

    功能还比较简单,喜欢深入的可以继续深入下去,暂时还没有登录的功能,因为登录功能涉及到的范围比较广,待日后慢慢研究后再开发。

    我先上个图让大家一睹为快吧:

    首先看看页面,我们要采集这个网站的文章

     

    接下来,首先是查找分页,获得分页里面的文章链接,接着查找内容页需要采集的字段,生成规则,进行采集。

    最后,可以开始采集了,感兴趣的你,可以试试....

    怎么样,有点意思吧?

    我们再来看看源码结构,如下图,分层采用的是简单的业务+数据层(Biz)、模型层(Model)、公共设施层(Framework),因为是小项目,所以没有过多的分层

    Model层 使用的是EF的CodeFirst 来生成数据库表和字段的,其他不多讲了,自己体会吧。

    下载源码

  • 相关阅读:
    三、oneinstack
    二、两条Linux删除数据跑路命令
    一、定时任务
    三、Docker网络
    C#数据结构
    四、字段大全
    【2019-06-14】同事的低迷
    【2019-06-13】同事的进步
    【2019-06-12】看书的好地方
    【2019-06-11】笔耕不辍
  • 原文地址:https://www.cnblogs.com/yangda/p/4828061.html
Copyright © 2011-2022 走看看