zoukankan      html  css  js  c++  java
  • 示例

    当初为了在SS中设置数据仓库这个功能, 团队中有一些争议. 主要是集中在为啥要提供这个功能, 到底有没有必要等问题上, 但最终这个功能还是上了. 相信初用者也会有同样的疑问, 我想介绍一下数据仓库的一些妙用, 也顺便为大家解析一下这个疑惑.

    用处1, 临时保存中间数据:

    以采集网易国际新闻为例. 打开http://news.163.com/world/, 可以看到这是一个列表页面, 每页有几十条新闻, 还有很多很多页. 每条新闻点开之后可以看到正文, 这个正文就是我们最终要采集的内容. 如果在一个脚本中完成刚才的流程, 会显得有点复杂, 纵使各位技术高超, 估计开始之前也要构思一番. 我推荐一个简单步骤, 可以无需经过大脑, 提笔就干!

    1. 在数据仓库中创建数据集 NEWS.163.COM.LIST

    2. 编写脚本A完成对http://news.163.com/world/的采集, 结果 (标题, URL) 都输出到 NEWS.163.COM.LIST

    DataManager.AppendData("news.163.com.list", DataEntry.Create().Set("Title", ...).Set("Url", ...));

    3. 编写脚本B从 NEWS.163.COM.LIST 中读取链接 (标题, URL), 然后逐一打开来采集正文

    var de = DataManager.ReadData("news.163.com.list");
    var title = de.Get("Title");
    var url = de.Get("Url");

    4. 运行

    是不是很便捷? 手脚麻利一点的话, 估计在别人构思完成之前, 你的脚本都写好了 :)

    用处2, 并行运行提升采集性能:

    SS中集成了采集小精灵, 这是一个有趣的小程序. 它可以独立运行SS中的脚本, 并将结果写回到数据仓库中. 如果我们同时运行多个采集精灵, 就能够实现并行抓取. 不用担心它们会重复抓取, 因为DataManager.ReadData是根据游标来工作的, 它只进不退, 每读取一次, 就往前移一格, 所以每次读取的都不一样.

    下面给出一个比较完整的脚本范例供大家参考:

    脚本A

    public void Run()
    {
        Default.Navigate("http://news.163.com/world/");
        Default.Ready();
        while(Default.Available)
        {
            var rows = Default.SelectNodes("...");
            foreach(var r in rows)
            {
                var title = r.SelectSingleNode("a").Text();
                var url = r.SelectSingleNode("a").Attr("href");
                DataManager.AppendData("news.163.com.list", DataEntry.Create().Set("Title", title).Set("Url", url));
            }
            var nextPage = Default.SelectSingleNode("...");
            if(nextPage.IsEmpty()) return;
            nextPage.Click();
            Default.Reset();
            Default.Ready();
        }
    }

    脚本B

    public void Run()
    {
        while(Default.Available)
        {
            var de = DataManager.ReadData("news.163.com.list");
            if(de == null) return;
            var url = de.Get("Url");
            Default.Navigate(url);
            Default.Ready();
            var content = Default.SelectSingleNode("...");
            DataManager.AppendData("news.163.com.content", de.Set("Content", content)); //请预先创建数据集 NEWS.163.COM.CONTENT
        }
    }

    然后, 多个采集精灵同时运行起来是不是很有赶脚? (体验版虽然只能运行一个采集精灵, 但还是可以通过让SS和采集精灵同时运行脚本B来提高效率的).

    最后, enjoy~!

  • 相关阅读:
    javaweb登录验证码的实现
    jQuery Ajax 简单的实现跨域请求
    Java Socket长连接示例代码
    Java socket长连接代码实现
    带日期的bean转为json(bean->JSON)
    函数迭代器、生成器、递归
    闭包函数和装饰器
    函数名称空间与作用域
    函数基础
    基本的文件操作
  • 原文地址:https://www.cnblogs.com/iamzyf/p/3507367.html
Copyright © 2011-2022 走看看