zoukankan      html  css  js  c++  java
  • 1242. 多线程网页爬虫

    给你一个初始地址 startUrl 和一个 HTML 解析器接口 HtmlParser,请你实现一个 多线程的网页爬虫,用于获取与 startUrl 有 相同主机名 的所有链接。 

    以 任意 顺序返回爬虫获取的路径。

    爬虫应该遵循:

    从 startUrl 开始
    调用 HtmlParser.getUrls(url) 从指定网页路径获得的所有路径。
    不要抓取相同的链接两次。
    仅浏览与 startUrl 相同主机名 的链接。


    如上图所示,主机名是 example.org 。简单起见,你可以假设所有链接都采用 http 协议,并且没有指定 端口号。举个例子,链接 http://leetcode.com/problems 和链接 http://leetcode.com/contest 属于同一个 主机名, 而 http://example.org/test 与 http://example.com/abc 并不属于同一个 主机名。

    HtmlParser 的接口定义如下:

    interface HtmlParser {
    // Return a list of all urls from a webpage of given url.
    // This is a blocking call, that means it will do HTTP request and return when this request is finished.
    public List<String> getUrls(String url);
    }
    注意一点,getUrls(String url) 模拟执行一个HTTP的请求。 你可以将它当做一个阻塞式的方法,直到请求结束。 getUrls(String url) 保证会在 15ms 内返回所有的路径。 单线程的方案会超过时间限制,你能用多线程方案做的更好吗?

    对于问题所需的功能,下面提供了两个例子。为了方便自定义测试,你可以声明三个变量 urls,edges 和 startUrl。但要注意你只能在代码中访问 startUrl,并不能直接访问 urls 和 edges。

    拓展问题:

    假设我们要要抓取 10000 个节点和 10 亿个路径。并且在每个节点部署相同的的软件。软件可以发现所有的节点。我们必须尽可能减少机器之间的通讯,并确保每个节点负载均衡。你将如何设计这个网页爬虫?
    如果有一个节点发生故障不工作该怎么办?
    如何确认爬虫任务已经完成?
     

    示例 1:

    输入:
    urls = [
      "http://news.yahoo.com",
      "http://news.yahoo.com/news",
      "http://news.yahoo.com/news/topics/",
      "http://news.google.com",
      "http://news.yahoo.com/us"
    ]
    edges = [[2,0],[2,1],[3,2],[3,1],[0,4]]
    startUrl = "http://news.yahoo.com/news/topics/"
    输出:[
      "http://news.yahoo.com",
      "http://news.yahoo.com/news",
      "http://news.yahoo.com/news/topics/",
      "http://news.yahoo.com/us"
    ]
    示例 2:

    输入:
    urls = [
      "http://news.yahoo.com",
      "http://news.yahoo.com/news",
      "http://news.yahoo.com/news/topics/",
      "http://news.google.com"
    ]
    edges = [[0,2],[2,1],[3,2],[3,1],[3,0]]
    startUrl = "http://news.google.com"
    输出:["http://news.google.com"]
    解释:startUrl 链接与其他页面不共享一个主机名。
     

    提示:

    1 <= urls.length <= 1000
    1 <= urls[i].length <= 300
    startUrl 是 urls 中的一个。
    主机名的长度必须为 1 到 63 个字符(包括点 . 在内),只能包含从 “a” 到 “z” 的 ASCII 字母和 “0” 到 “9” 的数字,以及中划线 “-”。
    主机名开头和结尾不能是中划线 “-”。
    参考资料:https://en.wikipedia.org/wiki/Hostname#Restrictions_on_valid_hostnames
    你可以假设路径都是不重复的。

    来源:力扣(LeetCode)
    链接:https://leetcode-cn.com/problems/web-crawler-multithreaded
    著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。

    这道题目是test case 有问题还是写的代码有问题。 为啥不给一下开启的线程数量。 MAX_ALIVE_THREAD_NUM 这个量定小了就会超时,多了就会超出内存限制。

    我给的做法是用 CountDownLatch。 起某一数量的线程,把耗时的操作htmlParser.getUrls() 放到一个独立的线程中去进行操作。

    这里需要维护一个 线程安全的 queue (也可以去限制queue的大小,e.g boundedblockingqueue) 来去保存需要 CrawlWorker 去 crawl 的request url .

    因为这里queue和set 都会有多个线程同时读写。所以 要用线程安全的 queue 和set。ConcurrentLinkedQueue 已经保证了多个线程同时读/写访问的安全性了。

    每个阶段开的线程数量取决于queue的size和 MAX_ALIVE_THREAD_NUM 中的最小值。

    这道题目的本质就是找到独立互不影响的操作, 开启一个线程去执行。对于这道题目就是对每一个url 爬虫都是一个独立request。 然后从爬出的url选出同一个host以及没出现在结果集的作为新的request放到 queue中。

    还有一个比较好的练习可以写一下, Merge k sorted list Multithreaded ,关键也是找到线程独立的操作。

    /**
    * // This is the HtmlParser's API interface.
    * // You should not implement it, or speculate about its implementation
    * interface HtmlParser {
    * public List<String> getUrls(String url) {}
    * }
    */
    class Solution {


    class CrawlWorker implements Runnable {

    private String startUrl;

    private CountDownLatch countDownLatch;

    private HtmlParser htmlParser;

    CrawlWorker(String startUrl, CountDownLatch countDownLatch,HtmlParser htmlParser){
    this.startUrl = startUrl;
    this.countDownLatch = countDownLatch;
    this.htmlParser = htmlParser;
    }

    @Override
    public void run() {
    parse();
    }

    private void parse(){
    urlSet.add(startUrl);
    List<String> urlList = htmlParser.getUrls(startUrl);
    for(String url : urlList){
    if(urlSet.contains(url) || !getHost(url).equals(hostName)) continue;
    queue.offer(url);
    }

    this.countDownLatch.countDown();
    }
    }

    private final Set<String> urlSet = ConcurrentHashMap.newKeySet();
    private final Queue<String> queue = new ConcurrentLinkedQueue<>();

    private String hostName;
    private static final Integer MAX_ALIVE_THREAD_NUM = 128;

    public List<String> crawl(String startUrl, HtmlParser htmlParser) {

    hostName = getHost(startUrl);

    queue.offer(startUrl);
    while(!queue.isEmpty()){

    int curThreadNum = Math.min(MAX_ALIVE_THREAD_NUM, queue.size());

    CountDownLatch countDownLatch = new CountDownLatch(curThreadNum);

    for(int idx = 0; idx < curThreadNum ;idx++){
    String curUrl = queue.poll();
    CrawlWorker crawlWorker = new CrawlWorker(curUrl,countDownLatch, htmlParser);
    Thread thread = new Thread(crawlWorker);
    thread.start();
    }

    try {
    countDownLatch.await();
    } catch (InterruptedException e) {
    e.printStackTrace();
    }
    }
    return new ArrayList<>(urlSet);
    }


    private static String getHost(String url){
    String host = url.substring(7); // all urls use http protocol
    int idx = host.indexOf('/');
    if(idx == -1) return host;
    return host.substring(0,idx);
    }
    }

    作者:huya-402994
    链接:https://leetcode-cn.com/problems/web-crawler-multithreaded/solution/qiu-tao-lun-zhe-dao-xie-ding-e-de-ti-by-huya-40299/
    来源:力扣(LeetCode)
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 相关阅读:
    @终极解密输入网址按回车到底发生了什么
    jgitflow-maven-plugin报错:The authenticity of host can't be established.
    java log4j2日志行号不显示问题
    Prometheus监控之grafana常用模板编号记录
    DM数据守护
    使用IntelliJ IDEA 配置Maven(入门)
    IntelliJ IDEA lombok插件的安装和使用
    idea svn连接https报错问题: E230001: Server SSL certificate verification failed: certificate issued
    SVN安装后,右键不显示SVN菜单项
    IntelliJ IDEA怎么配置svn,集成svn方法
  • 原文地址:https://www.cnblogs.com/leeeee/p/11901965.html
Copyright © 2011-2022 走看看