zoukankan      html  css  js  c++  java
  • hadoop配置文件含义

    1.core-site.xml
        <property>
          <name>fs.trash.interval</name>
          <value>360</value>
        </property>
     
    hadoop默认垃圾回收保存时间,分钟
     
     
    2.mapreduce.input.linerecordreader.line.maxlength=100000  执行Mapreduce任务outofmemory,让Mapreduce一次读取10w条记录
     
     
    3.在hive config中有一个
    hive.stats.autogather=true     
    hive.stats.autogather:在insert overwrite命令时自动收集统计信息,默认开启true;好处就是执行select count立即会返回结果不会等待mr任务
     
     
    4.dfs.block.size
    修改hdfs块大小
    (1)减轻了namenode的压力
    原因是hadoop集群在启动的时候,datanode会上报自己的block的信息给namenode。namenode把这些信息放到内存中。那么如果块变大了,那么namenode的记录的信息相对减少,所以namenode就有更多的内存去做的别的事情,使得整个集群的性能增强。
    (2)增大会不会带来负面相应。
    因为这个可以灵活设置,所以这里不是问题。关键是什么时候,该如何设置。
    如果对于数两级别为PB的话,建议可以block设置的大一些。
    如果数据量相对较少,可以设置的小一些64M也未尝不可。
     
    5.hive中Run as end user instead of Hive user
    true
    使用提交任务的用户去执行任务 
  • 相关阅读:
    《web-Mail服务的搭建》
    VMware虚拟机三种联网方法及原理
    Java总结——常见Java集合实现细节(1)
    nginx静态资源缓存策略配置
    算术验证
    JPA学习
    Spring中AOP实现
    转:Spring中事物管理
    使用docker发布spring cloud应用
    综合使用spring cloud技术实现微服务应用
  • 原文地址:https://www.cnblogs.com/brownyangyang/p/9145797.html
Copyright © 2011-2022 走看看