https://blog.csdn.net/kaede1209/article/details/81145560
1.spark数据倾斜的原因
2.spark查看数据倾斜
在spark web ui中更准确的看数据倾斜的办法,是看某个stage里各task的shuffle write、shuffle read、input size情况等,如果该stage内各task的数据量明显不太均衡,
肯定发生了数据倾斜,上面一点的metrics表格里的这三个指标的最小值、中位数、最大值如果差的很大,也说明发生了数据倾斜。
在Spark2.3及以上版本开启Dynamic Allocation特性,或Spark3中的Adaptive Execution特性后,各executor处理的stage数并不一样,很经常就会看起来各executor的数据量不同,
但其实没有发生数据倾斜,去某个stage里看各task的数据量情况和metrics表格,还是均衡的。