zoukankan      html  css  js  c++  java
  • Hadoop 配置文件简介

    1、core-site.xml文件

    这是一个描述集群中NameNode结点的URI-统一资源标识符(包括协议,主机名称,端口号),集群里面的每一台机器都需要知道 NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被利用。独立的客户端程序通过这个URI跟 DateNode交互,以取得文件的块列表。

    <property>

    <name>fs.default.name</name>

    <value>hdfs://localhost:9000</value>

    </property>

    hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site-xml中不配置namenode 和datanode的存放位置,默认就放在这个路径下。

        <!-- 同时还可以指定 日志文件合并的时间,大小边界,对Hadoop 文件进行压缩的方式,文件回收的时间    -->

    2、hdfs-site-xml文件

            dfs.replication,它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为3(这个数字并没有上限,但更多的备份可能 并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)。

    <property>

    <name>hadoop.tmp.dir</name>

    <value>/home/hdfs/tmp</value>

    </property>


          dfs.data.dir这是DataNode结点被指定存储数据的本地文件系统路径。DataNode结点上的这个路径没必要完全相同。因为每台机器的 环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,工作会变得简单一些。默认情况下,它的值是Hadoop.temp.dir,这个路 径只能用于测试的目的,因为,他很可能会丢失掉一些数据,所以,这个值最好还是被覆盖。

          dfs.name.dir 这是NameNode结点存储Hadoop文件信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用它。上面对于/tmp的警告同样使用于这里。在实际应用中,它最好被覆盖掉。


          <property>

              <name>dfs.name.dir</name>

              <value>/home/hdfs/name</value>

    </property>

      <property>

          <name>dfs.data.dir</name>

          <value>/home/hdfs/data</value>

    </property>

    <!-- 指定nameNode文件的存储位置,dfs.name.dir-->
    <!-- 指定datanode文件的存储位置,dfs.data.dir-->
    <!-- 指定nameNode 网络断的主机端口,dfs.dfs.address-->
    <!-- 指定文件的备份数量,由NameNode 的数量来决定 dfs.replication-->
    <!-- 指定块大小 dfs.block.size-->

  • 相关阅读:
    创业成功关键在于专注“核心竞争力”(外包有时候能大大提高开发周期)
    华为为什么不设事业部制?
    雷军三年花10亿造“芯” 营销还是“不服气”(外界对雷军做芯片的三种猜测,以及雷军本人的看法)
    Windows完成端口与猪肉佬
    分布式锁实现
    Quartz(GUI)图形界面程序----Quartz Web
    Quartz.net开源作业调度
    js 闭包
    Nancy
    MVC—WebAPI(调用、授权)
  • 原文地址:https://www.cnblogs.com/plxx/p/4513306.html
Copyright © 2011-2022 走看看