Spark orderBy(desc("col"))部分数据排序失败

zoukankan html css js c++ java

Spark orderBy(desc("col"))部分数据排序失败
起因

对数据进行三个维度的排序，用的是orderBy(desc("col"))，结果其中两个维度上结果返回正确，另外一个维度上结果出现了大的排在后面的结果，错误的结果大概如下：
```
wang:2.072661
zhe:19.702593
rong:1.778491
```
正确维度上如下：
```
wang:17.069210
zhe:1.936609
rong:1.926417
yao:1.886525
```
排查
1. 以为是数据取错了，又重复的手工操作了一遍，发现数据还是这样，想应该不是数据的问题
2. 又在怀疑是不是碰到了bug，但是这么多人用，这么简单的函数，怎么会有bug呢，又试了一下sort($"col".desc)，发现结果还是这样
3. 只能回头去看这个数的计算方式，用的是udf函数，如下
```
def getRate(end_rate: Double, start_rate: Double): String = {
      ((end_rate - start_rate) / start_rate).formatted("%.6f")
    }
    val rateUDF = udf( (end_rate: Double, start_rate: Double) => {getRate(end_rate, start_rate)} )
```
恍然大悟，开始写的时候，返回的是一个Double类型，但是由于要formatted，结果返回的是String，我就把返回类型写成了String，程序可以跑起来了，我就忽略了这个事情，结果就发生了错误。

也就是说，这些看上去虽然是数字，但是实际上是字符串，此时排序也是按照字符串排序了，正确的维度上，首字符都是1，也只有1位，因此就说正确的排序；但是错误的维度上，19那个虽然是两位数，但是首字符是1，因此排到了后面。只需要讲udf函数改成返回Double，然后排序后再进行format就可以了。

Done！
查看全文

相关阅读:
干货分享：如何使用Kubernetes的Ingress API
十年OpenStack Ussuri最新版发布主要改进在可靠性、安全性和用例支持等方面
 如何更好地优化容器的创建？这些技巧你务必收藏
 Kubernetes是容器化微服务的圣杯么？
微服务是否真的需要服务网格？
ZOOM火速收购加密公司Kaybase 能否补齐安全短板？
5个实例告诉您：如何实施成功的容器化多云策略
 新基建火了，开源云计算渠道能做什么？
盘点6个Kubernetes监视工具
 掌握这10种方法帮你快速在Linux上分析二进制文件

原文地址：https://www.cnblogs.com/wswang/p/8425819.html

Spark orderBy(desc("col"))部分数据排序失败

起因

排查