zoukankan      html  css  js  c++  java
  • 大数据算法

    1.海量日志数据,提取出某日访问百度次数最多的那个IP

      首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到ip是32位的,最多有个2^32个ip。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,在找出每个小文件中出现频率最大的ip(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的ip中,找出那个频率最大的ip,即为所求。

    算法思想:分而治之+Hash

    1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;

    2.按照IP地址的hash(ip)%1024相同的ip一定会被分到同一个文件中,同一文件中各ip的hash值相差1024的整数倍),把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MBIP地址;

    3.对于每个小文件,可以构建一个ip为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个ip地址;

    4.可以得到1024个小文件中的出现次数最多的ip,再依出现次数排序得到总体上出现次数最多的ip;

    2. 给定a、b两个文件,各存放50亿个url/64字节,内存限制是4G,让你找出a、b文件共同的url?

    思考:可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。

    算法思想:分而治之+Hash

    1. 遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999)中。这样每个小文件的大约为300M。

    2. 遍历文件b,采取和a相同的方式将url分别存储到1000小文件(记为b0,b1,...,b999)。

    这样处理后,所有可能相同的url都在对应的小文件(a0&b0,a1&b1,...,a999&b999)中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

    3. 求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。 

    3.在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。

    同样hash(int)%1000,相同的整数一定会被分到一个文件中,然后求每个文件中不重复的数即可。

    4.怎么在海量数据中找出重复次数最多的一个?

    同上

  • 相关阅读:
    tip6: 程序不工作就是最大的异常
    简单实用的Code Review工具
    HDU4008 Parent and son [树形DP]
    HDU4004 The Frog's Games [二分]
    HDU4006 The kth great number [堆]
    HDU4024 Dwarven Sniper’s hunting [二分]
    HDU4005 The war [树形DP]
    HDU4009 Transfer water [最小树形图]
    HDU4023 Game [贪心+博弈]
    HDU4007 Dave [杂题]
  • 原文地址:https://www.cnblogs.com/shijianchuzhenzhi/p/6549835.html
Copyright © 2011-2022 走看看