1.core-site.xml
<property>
<name>fs.trash.interval</name>
<value>360</value>
</property>
hadoop默认垃圾回收保存时间,分钟
2.mapreduce.input.linerecordreader.line.maxlength=100000 执行Mapreduce任务outofmemory,让Mapreduce一次读取10w条记录
3.在hive config中有一个
hive.stats.autogather=true
hive.stats.autogather:在insert overwrite命令时自动收集统计信息,默认开启true;好处就是执行select count立即会返回结果不会等待mr任务
4.dfs.block.size
修改hdfs块大小
(1)减轻了namenode的压力
原因是hadoop集群在启动的时候,datanode会上报自己的block的信息给namenode。namenode把这些信息放到内存中。那么如果块变大了,那么namenode的记录的信息相对减少,所以namenode就有更多的内存去做的别的事情,使得整个集群的性能增强。
(2)增大会不会带来负面相应。
因为这个可以灵活设置,所以这里不是问题。关键是什么时候,该如何设置。
如果对于数两级别为PB的话,建议可以block设置的大一些。
如果数据量相对较少,可以设置的小一些64M也未尝不可。
5.hive中Run as end user instead of Hive user
true
使用提交任务的用户去执行任务