zoukankan      html  css  js  c++  java
  • 示例

    多线程蜘蛛程序是一个很有用的组件, 我在自己开发的Spider Studio中也提供了一个. 在设计上我尽量遵循使用简单的原则, 大量使用dynamic对象的特性, 使得代码非常精简灵活, 通过17行就能实现一个功能比较齐全的蜘蛛程序. 现在和大家分享一下:

    public void Run()
    {
        dynamic link = new ExpandoObject();
        link.Url = "http://news.163.com";
        Spider.AddLink(link);
        Spider.Downloaded += new DownloadedEventHandler((object sender, DownloadedEventArgs e) => { 
            Logger.Log(e.Page.Link.Url);
            foreach(var l in e.Page.SubLinks)
            {
                if(l.Depth <= 2) Spider.AddLink(l); //只采集Depth在2以内的网页
            }
        });
        Spider.ErrorOccurred += new ErrorOccurredEventHandler((object sender, ErrorOccurredEventArgs e) => { Logger.Log(e.Error.Message); });
        Spider.Start(10); //启动10个线程运行
        Spider.Wait(); //等待所有线程完成
        Spider.Stop();
    }

    Spider会用到如下几个对象, 大部分是dynamic的 (这里用JSON来示例):

    • Link - { Url:"string", Title:"string", Depth:1 }
    • DownloadedEventArgs - { Page: { Link: { Url:"string", Title:"string", Depth:1 }, Html: "string", SubLinks: [{ Url:"string", Title:"string", Depth:1 }]} }
    • ErrorOccurredEventArgs - { Error: ExceptionType }

    简单来说, 就是:

    • Link有三个属性: Url (字符串), Title (字符串) 和Depth (整形);
    • DownloadedEventArgs有一个属性: Page, Page又有三个属性: Page.Link (Link类型), Html (字符串) 和 SubLinks (Link数组);
    • ErrorOccurredEventArgs有一个属性: Error (Exception类型)

    运行情况:

  • 相关阅读:
    实用的设计模式【一】---类设计法则
    vimium 使用心得
    记一次给部门做分享的心得
    centos7安装docker和docker compose【转】
    docker 部署 jenkins
    centos删除docker0虚拟网卡
    CentOS7查看和关闭防火墙
    .Net Core Autofac实现依赖注入
    【转】Docker基础
    【转】使用Docker+Jenkins自动构建部署
  • 原文地址:https://www.cnblogs.com/iamzyf/p/3566490.html
Copyright © 2011-2022 走看看