hive计算分位数 - 走看看

zoukankan html css js c++ java

hive计算分位数

hive里面倒是有个percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)， $p \in (0, 1)$
$p e r c e n t i l e_a p p r o x (c o l, a r r a y (0.05, 0.5, 0.95), 9999)$

如果不放心的话，就给col再加个转换：
$p e r c e n t i l e_a p p r o x (c a s t (c o l a s d o u b l e), a r r a y (0.05, 0.5$

其输出结果长这样：
$[0.0, 4001.0, 4061.0]$

没法直接用啊！再加个转换：
$e x p l o d e (p e r c e n t i l e_a p p r o x (c a s t (c o l a s d o u b l e), a$

输出结果就长这样了：

percentile

0

4001

4061

实际操作中，发现有时在计算分位数的时候mapper会卡在0%。
前面说过，如果distinct的值小于B，就会返回精确值，那么个人猜测是因为后台执行的过程是先做了一个select distinct limit B，然后排序得到分位数。如果distinct值特别多的情况下，仅仅是去重就是一个巨大的运算负担，更别说排序了。而当把B从10000调到100的时候很快就能跑出来了

查看全文

相关阅读:
vue相关ajax库的使用
 vue-router核心概念
 Vue.js核心概念
 vue核心概念
 SQL 的各种 JOIN 用法
 应用Itextsharp 添加图片到pdf
MVC区域路由设置
 LINQ to Entities 不识别方法“System.String ToString()”，因此该方法无法转换为存储表达式。
使用命令行执行.sql文件
 MVC异常捕获处理，FilterConfig

原文地址：https://www.cnblogs.com/fujian-code/p/8798409.html

Copyright © 2011-2022 走看看