调整partition数量,每次reduece和distict的时候都应该调整,数量太大和太小都不好,通常来讲保证一个partition的大小在1~2G左右为宜
调整excutors
调整core
调整内存
使用cache (但是在内存不够的情况下,最好不要用,可能会频繁GC)
尽量减少shuffle运算
尽量减少网络传输
少量数据可以使用broadcast