比如启动四个节点,但是在处理数据的时候负载不均衡,只有两个节点的使用率很高。可以推测与分区数有关,测试数据集为267MB,hdfs中默认的数据分片大小为128MB,约有两个分区。推测只有两个分区能拿到数据进行计算,所以将hdfs的数据分片大小改为64MB,这样约有4个分区,与集群中的Executor数目相符。经测试证明,负载不均衡的问题得到解决。
修改配置文件hdfs-site.xml,将block size设置为64MB
<property>
<name>dfs.block.size</name>
<value>67108864</value> 说明:64M=64*1024*1024
</property>