zoukankan      html  css  js  c++  java
  • [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

    [DotnetSpider 系列目录]

    为什么要造轮子

    同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JAVA、PYTHON,甚至于还有NODEJS,C++;再或者去开源中国查询C#的爬虫项目,仅有几个非常简单或是几年没有更新的项目。

    而单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,反而有开发上的优势(得益于世界上最强大的IDE)。爬虫性能瓶颈大多是在并发下载(网速)、IP池,那么为什么.NET没有一个强大的爬虫框架呢?说真的我不知道,可能爬虫框架核心上比较简单,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。直到.NET要出开源版的消息传来,我觉得是时候开发一个跨平台,跨语言的爬虫框架了。但一开始是比较忐忑的,觉得自己水平不够去完全重新设计一个新的框架出来,因此参考了JAVA的一个轻量级爬虫框架webmagic,并加入了我自己的理解和改进。如果设计或写得不好请大家指正海涵

    框架设计

    由于我是参考的webmagic,所以整体架构上没有什么大的变化,设计图如下(图片是直接从webmagic上拿的)

     image

    • Scheduler:负责URL的调度、去重,可以实现如Queue, PriorityQueueScheduler, RedisScheduler(可用于分布式)等等
    • Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等
    • PageProcesser: 负责HTML解析、目标URL的选择
    • Pipeline: 负责数据的存储, 已实现文件存储, MySql存储, MySqlFile存储(脚本),MSSQL存储,MongoDb存储, 更多存储期待您的贡献

    优点

    • 可以使用Json定义爬虫
    • 可以使用实体类+Attrbiute定义爬虫
    • 自动创建数据库、数据表
    • 支持 .NET CORE,可以跨平台
    • 支持ADSL拨号换IP:如果所有爬虫统一部署, 可以实现单台机器同时运行多个任务拨号互不影响、或者一个路由下面多个电脑下多个任务拨号互不影响
    • 支持自定义代理池
    • 有管理平台

    基本使用

    基本使用只需要引用DotnetSpider2.Core(Nuget中获取)

    DotnetSpider实现一个完整爬虫是需要4个模块的:Scheduler、Downloader、PageProcessor、Pipeline。由于Downloader和Scheduler都是有基本实现的,因此只需要实现PageProcessor和Pipeline就可以实现一个基本爬虫了,这种方式也是最自由的方式。

    完全自定义的例子如下:

            public static void Main(string[] args)
            {
                // Custmize processor and pipeline 完全自定义页面解析和数据管道
                CustmizeProcessorAndPipeline();
                Console.WriteLine("Press any key to continue...");
                Console.Read();
             }
            public static void CustmizeProcessorAndPipeline()
            {
                // Config encoding, header, cookie, proxy etc... 定义采集的 Site 对象, 设置 Header、Cookie、代理等
                var site = new Site { EncodingName = "UTF-8", RemoveOutboundLinks = true };
                for (int i = 1; i < 5; ++i)
                {
                    // Add start/feed urls. 添加初始采集链接
                    site.AddStartUrl($"http://list.youku.com/category/show/c_96_s_1_d_1_p_{i}.html");
                }
                Spider spider = Spider.Create(site,
                    // use memoery queue scheduler. 使用内存调度
                    new QueueDuplicateRemovedScheduler(),
                    // use custmize processor for youku 为优酷自定义的 Processor
                    new YoukuPageProcessor())
                    // use custmize pipeline for youku 为优酷自定义的 Pipeline
                    .AddPipeline(new YoukuPipeline());
                spider.Downloader = new HttpClientDownloader();
                spider.ThreadNum = 1;
                spider.EmptySleepTime = 3000;
    
                // Start crawler 启动爬虫
                spider.Run();
    
            }
    
            public class YoukuPipeline : BasePipeline
            {
                private static long count = 0;
    
                public override void Process(params ResultItems[] resultItems)
                {
                    foreach (var resultItem in resultItems)
                    {
                        StringBuilder builder = new StringBuilder();
                        foreach (YoukuVideo entry in resultItem.Results["VideoResult"])
                        {
                            count++;
                            builder.Append($" [YoukuVideo {count}] {entry.Name}");
                        }
                        Console.WriteLine(builder);
                    }
    
                    // Other actions like save data to DB. 可以自由实现插入数据库或保存到文件
                }
            }
    
            public class YoukuPageProcessor : BasePageProcessor
            {
                protected override void Handle(Page page)
                {
                    // 利用 Selectable 查询并构造自己想要的数据对象
                    var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes();
                    List<YoukuVideo> results = new List<YoukuVideo>();
                    foreach (var videoElement in totalVideoElements)
                    {
                        var video = new YoukuVideo();
                        video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue();
                        results.Add(video);
                    }
    
                    // Save data object by key. 以自定义KEY存入page对象中供Pipeline调用
                    page.AddResultItem("VideoResult", results);
    
                    // Add target requests to scheduler. 解析需要采集的URL
                    //foreach (var url in page.Selectable.SelectList(Selectors.XPath("//ul[@class='yk-pages']")).Links().Nodes())
                    //{
                    //    page.AddTargetRequest(new Request(url.GetValue(), null));
                    //}
                }
            }
    
            public class YoukuVideo
            {
                public string Name { get; set; }
            }

    配置式爬虫

    配置式爬虫需要额外引用DotnetSpider2.Extension(Nuget中获取)

    大部分情况下只需要配置式来实现一个采集任务。相对于基本使用方式,配置式爬式只需要短短的几行代码就可以实现一个爬虫。但凡事有利就有弊,配置式爬的自由度相对低了一些。

    使用配置式爬虫的步骤如下:

    1. 定义数据实体类,通过添加Attribute来定义数据的存储规则、数据从页面的解析规则
    2. 定义爬虫任务的定义,继承EntitySpider
    3. 在Main方法中实例化定义好的爬虫任务,并调用Run方法

    完整代码如下, 感受一下就好,后面章节会详细介绍如何实现:

        public class JdSkuSampleSpider : EntitySpider
        {
            public JdSkuSampleSpider() : base("JdSkuSample", new Site
            {
                //HttpProxyPool = new HttpProxyPool(new KuaidailiProxySupplier("快代理API"))
            })
            {
            }
    
            protected override void MyInit(params string[] arguments)
            {
                Identity = Identity ?? "JD SKU SAMPLE";
    
                ThreadNum = 1;
                // dowload html by http client
                Downloader = new HttpClientDownloader();
    
                // storage data to mysql, default is mysql entity pipeline, so you can comment this line. Don't miss sslmode.
                AddPipeline(new MySqlEntityPipeline("Database='mysql';Data Source=localhost;User ID=root;Password=;Port=3306;SslMode=None;"));
                AddStartUrl("http://list.jd.com/list.html?cat=9987,653,655&page=2&JL=6_0_0&ms=5#J_main", new Dictionary<string, object> { { "name", "手机" }, { "cat3", "655" } });
                AddEntityType<Product>();
            }
    
            [EntityTable("test", "jd_sku", EntityTable.Monday, Indexs = new[] { "Category" }, Uniques = new[] { "Category,Sku", "Sku" })]
            [EntitySelector(Expression = "//li[@class='gl-item']/div[contains(@class,'j-sku-item')]")]
            [TargetUrlsSelector(XPaths = new[] { "//span[@class="p-num"]" }, Patterns = new[] { @"&page=[0-9]+&" })]
            public class Product : SpiderEntity
            {
                [PropertyDefine(Expression = "./@data-sku", Length = 100)]
                public string Sku { get; set; }
    
                [PropertyDefine(Expression = "name", Type = SelectorType.Enviroment, Length = 100)]
                public string Category { get; set; }
    
                [PropertyDefine(Expression = "cat3", Type = SelectorType.Enviroment)]
                public int CategoryId { get; set; }
    
                [PropertyDefine(Expression = "./div[1]/a/@href")]
                public string Url { get; set; }
    
                [PropertyDefine(Expression = "./div[5]/strong/a")]
                public long CommentsCount { get; set; }
    
                [PropertyDefine(Expression = ".//div[@class='p-shop']/@data-shop_name", Length = 100)]
                public string ShopName { get; set; }
    
                [PropertyDefine(Expression = ".//div[@class='p-name']/a/em", Length = 100)]
                public string Name { get; set; }
    
                [PropertyDefine(Expression = "./@venderid", Length = 100)]
                public string VenderId { get; set; }
    
                [PropertyDefine(Expression = "./@jdzy_shop_id", Length = 100)]
                public string JdzyShopId { get; set; }
    
                [PropertyDefine(Expression = "Monday", Type = SelectorType.Enviroment)]
                public DateTime RunId { get; set; }
            }
        }
    public class Program
    {
        public static void Main(string[] args)
        {
            JdSkuSampleSpider spider = new JdSkuSampleSpider();
            spider.Run();
        }
    }

    代码地址

    https://github.com/zlzforever/DotnetSpider  望各位大佬加星 :)

    参与开发或有疑问

    博文写得比较早, 框架修改有时会来不及更新博文中的代码, 请查看DotnetSpider.Sample项目中的样例爬虫

    QQ群: 477731655

    邮箱: zlzforever@163.com

     

     

  • 相关阅读:
    LintCode: Climbing Stairs
    LintCode: Binary Tree Postorder Traversal
    LintCode: Binary Tree Preorder Traversal
    LintCode: Binary Tree Inorder Traversal
    Lintcode: Add Two Numbers
    Lintcode: Add Binary
    LintCode: A + B Problem
    LintCode: Remove Linked List Elements
    LintCode:Fibonacci
    Lintcode开刷
  • 原文地址:https://www.cnblogs.com/modestmt/p/5480773.html
Copyright © 2011-2022 走看看