zoukankan      html  css  js  c++  java
  • 从海量日志中提取访问百度次数最多的IP

    P地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。
    可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。
    对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。
    有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。

    P地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。
    可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。
    对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。
    有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。

  • 相关阅读:
    TOJ1017: Tour Guide
    tzcacm去年训练的好题的AC代码及题解
    Educational Codeforces Round 40 (Rated for Div. 2)
    AtCoder Regular Contest 092
    浙南联合训练赛20180318
    [Offer收割]编程练习赛50
    牛客练习赛13
    AtCoder Regular Contest 091
    Codeforces Round #470 (rated, Div. 2, based on VK Cup 2018 Round 1)
    csa Round #73 (Div. 2 only)
  • 原文地址:https://www.cnblogs.com/dartagnan/p/2195957.html
Copyright © 2011-2022 走看看