zoukankan      html  css  js  c++  java
  • Spark环境搭建(一)-----------HDFS分布式文件系统搭建

    下载的压缩文件放在~/software/    解压安装在~/app/

    一:分布式文件系统搭建HDFS

    1,下载Hadoop

      HDFS环境搭建    使用版本:hadoop-2.6.0-cdh5.7.0

      下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

      解压:tar http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/

    2,安装JDK

      下载:从官网下载,ftp上传到software下

      安装: tar -zxvf jdk-7u51-linux-x64.tar.gz -C ~/app/

      配置环境变量:vim ./bash_profile

                     插入  export JAVA_HOME=/root/app/jdk1.7.0_51

                 export PATh=$JAVA_HOME/bin:$PATH

               保存   wq

             生效   source ./bash_profile

    3,机器参数设置:将多个Linux通过免密SSH连接

      修改机器名:以便直接通过hosts 机器名与IP映射关系直接登录

        vim /etc/sysconfig/network

        NETWORKING=yes

        HOSTNAME=hadoop001

      设置IP与机器名的映射:

        vim /etc/hosts

        192.168.1.116 hadoop001

        127.0.0.1 localhost

      ssh免密登录(这个可以不设置,但是重启hadoop进程时是需要手工输入密码才行)

        cd ~

        ssh-keygen -t rsa             (不需输入密码,一直回车)

        cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

      测试:ssh hadoop001   直接连接上另一个虚拟机

    4,Hadoop文件修改

      cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

        1)hadoop-env.sh          配置Java环境

          export JAVA_HOME=/root/app/jdk1.7.0_51

        2)core-site.xml

          <property>

                   <name>fs.defaultFS</name>
                   <value>hdfs://hadoop001:8020<alue>
               </property>

               <property>
                   <name>hadoop.tmp.dir</name>
                   <value>/home/hadoop/app/tmp<alue>
               </property>

           解释:

             第一个<property>:添加默认的HDFS名称:hostname 为Hadoop000 端口8020

           第二个<property>:更改Hadoop配置文件目录,默认在temp中,每当系统重启会消失,所有要改成自己建立的文件夹
        
        3) hdfs-site.xml     修改文件系统的副本系数,默认为三个,自己只有一台机器,所以改为1
            <property>
                    <name>dfs.replication</name>
                    <value>1</value>
                </property>
     
    5,格式化HDFS
      注意:只是在配置完Hadoop后进行的操作,格式化后数据会丢失
      命令:bin/hdfs namenode -format
     
    6,启动HDFS
       命令:sbin/start-dfs.sh
      验证是否启动成功:
        1)jps
          DataNode
          SecondaryNameNode
          NameNode
        2)浏览器
          http://hadoop000:50070/
      其中启动过程中可能遇到:1)jps命令不存在。 2)同一个局域网内无法访问http://hadoop000:50070/  解决办法在另一篇博文

    7,停止HDFS

      命令: sbin/stop-dfs.sh
      

  • 相关阅读:
    ansible部署apache
    yum换源,rpm包下载,源码包安装
    zabbix 监控apache
    分块大法 -- 优雅的暴力
    [每日一题]:建立联系 -- 最小生成树
    [每日一题]:P1016 旅行家的预算 -- 反悔贪心
    [每日一题]:[NOIP2010]关押罪犯 -- 并查集
    Python基础: 元组的基本使用
    Python基础: 列表的基本使用
    Python基础:分支、循环、函数
  • 原文地址:https://www.cnblogs.com/ruoniao/p/7198504.html
Copyright © 2011-2022 走看看