zoukankan      html  css  js  c++  java
  • 从海量日志中提取访问百度次数最多的IP

    P地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。
    可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。
    对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。
    有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。

    P地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。
    可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。
    对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。
    有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。

  • 相关阅读:
    Java学习第一周汇报
    Java暑期学习第八天日报
    Java暑期学习第十天日报
    Java暑期学习第十二天日报
    Java学习第二周汇报
    Java暑期学习第九天日报
    0006 列表(ul、ol、dl)
    0015 行高那些事:lineheight
    0016 CSS 背景:background
    HTTP中GET与POST的区别 99%的错误认识
  • 原文地址:https://www.cnblogs.com/dartagnan/p/2195957.html
Copyright © 2011-2022 走看看