zoukankan      html  css  js  c++  java
  • druid.io使用技术简介: Hyperloglog

    druid.io 使用Hyperloglog 估计基数

    参照如下连接

    http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-i.html

    http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-ii.html

    http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-iii.html

    http://blog.codinglabs.org/articles/algorithms-for-cardinality-estimation-part-iv.html

    基数估计算法就是使用准确性换取空间。为了说明这一点,我们用三种不同的计算方法统计所有莎士比亚作品中不同单词的数量。请注意,我们的输入数据集增加了额外的数据以致比问题的参考基数更高。这三种技术是:Java HashSet、Linear Probabilistic Counter以及一个Hyper LogLog Counter。结果如下:

                               

    该表显示,我们统计这些单词只用了512 bytes,而误差在3%以内。相比之下,HashMap的计数准确度最高,但需要近10MB的空间,你可以很容易地看到为什么基数估计是有用的。在实际应用中准确性并不是很重要的,这是事实,在大多数网络规模和网络计算的情况下,用概率计数器会节省巨大的空间。

  • 相关阅读:
    2019暑假集训 windy数
    2019暑假集训 数字游戏
    2019暑假集训 周年纪念晚会
    2019暑假集训 加分二叉树
    0013-求圆柱体体积
    0012-求滑动距离
    0011-绝对值函数
    0010-温度转换
    0009-乘法问题
    0008-三位数倒序问题
  • 原文地址:https://www.cnblogs.com/lpthread/p/4503591.html
Copyright © 2011-2022 走看看