zoukankan      html  css  js  c++  java
  • hadoop+hbase

    hadoop的配置见下面这篇文章

    http://www.powerxing.com/install-hadoop-2-4-1-single-node/

    Hadoop安装教程_单机/伪分布式配置_Hadoop2.4.1_Ubuntu14.04

    环境

    • 系统: Ubuntu 14.04 64bit
    • Hadoop版本: Hadoop 2.4.1 (stable)
    • JDK版本: OpenJDK 7

    本教程基于 Hadoop 2.4.1,但对于 Hadoop 2.x 版本应该都是适用的。

    创建hadoop用户

    如果你安装Ubuntu的时候不是用的hadoop用户,那么需要增加一个名为hadoop的用户,并将密码设置为hadoop

    创建用户

    sudo useradd hadoop
    

    修改密码为hadoop,按提示输入两次密码

    sudo passwd hadoop
    

    给hadoop用户创建目录,方可登陆

    sudo mkdir /home/hadoop
    sudo chown hadoop /home/hadoop
    

    可考虑为 hadoop 用户增加管理员权限,方便部署,避免一些权限不足的问题:

    sudo adduser hadoop sudo
    

    最后注销当前用户,使用hadoop用户进行登陆。

    安装SSH server、配置SSH无密码登陆

    Ubuntu默认安装了SSH client,还需要安装SSH server。

    sudo apt-get install openssh-server
    

    集群、单节点模式都需要用到SSH无密码登陆,首先设置SSH无密码登陆本机。

    输入命令

    ssh localhost
    

    会有如下提示(SSH首次登陆提示),输入yes。

    SSH首次登陆提示SSH首次登陆提示

    然后按提示输入密码hadoop,这样就登陆到本机了。但这样的登陆是需要密码的,需要配置成无密码登陆。

    先退出刚才的ssh,然后生成ssh证书:

    exit                           # 退出 ssh localhost
    cd ~/.ssh                      # 如果没有该目录,先执行一次ssh localhost
    ssh-keygen -t rsa              # 一直按回车就可以
    cp id_rsa.pub authorized_keys
    

    此时再用ssh localhost命令,就可以直接登陆了,如下图所示。

    SSH无密码登陆SSH无密码登陆

    安装Java环境

    以前的教程都是建议安装Oracle的JDK,不建议使用OpenJDK,不过按http://wiki.apache.org/hadoop/HadoopJavaVersions中说的,新版本在OpenJDK 1.7下是没问题的。通过命令安装OpenJDK 7。

    sudo apt-get install openjdk-7-jre openjdk-7-jdk
    

    默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (可以通过命令dpkg -L openjdk-7-jdk看到)。安装完后就可以使用了,可以用java -version检查一下。

    需要配置一下 JAVA_HOME 环境变量,这个环境变量很多地方都会用到,在 /etc/environment 中配置:

    sudo vim /etc/environment
    

    在文件末尾添加一行:

    JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64"
    

    保存,最后需要注销然后再次登陆,或重启一下,才能保证 JAVA_HOME 在新打开的终端窗口中都能使用(注销、重启后,新打开一个终端窗口,输入 echo $JAVA_HOME 检验)。

    安装Hadoop 2.4.1

    2.4.1的下载地址为: http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gz,安装教程主要参考了官方教程http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

    下载后,解压到/usr/local/中。

    sudo tar -zxvf ~/下载/hadoop-2.4.1.tar.gz -C /usr/local   # 解压到/usr/local中
    sudo mv /usr/local/hadoop-2.4.1/ /usr/local/hadoop      # 将文件名改为hadoop
    sudo chown -R hadoop:hadoop /usr/local/hadoop       # 修改文件权限
    

    Hadoop解压后即可使用。输入如下命令Hadoop检查是否可用,成功则会显示命令行的用法:

    /usr/local/hadoop/bin/hadoop
    

    Hadoop单机配置

    Hadoop默认配置是以非分布式模式运行,即单Java进程,方便进行调试。可以执行附带的例子WordCount来感受下Hadoop的运行。例子将Hadoop的配置文件作为输入文件,统计符合正则表达式dfs[a-z.]+的单词的出现次数。

    cd /usr/local/hadoop
    mkdir input
    cp etc/hadoop/*.xml input
    bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
    cat ./output/*
    

    执行成功后如下所示,输出了作业的相关信息,输出的结果是符合正则的单词dfsadmin出现了1次

    Hadoop单机WordCount输出结果Hadoop单机WordCount输出结果

    再次运行会提示出错,需要将./output删除。

    rm -R ./output
    

    Hadoop伪分布式配置

    Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点即是NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xmletc/hadoop/hdfs-site.xml。Hadoop的配置文件是xml格式,声明property的name和value。

    修改配置文件etc/hadoop/core-site.xml,将

    <configuration>
    </configuration>
    

    修改为下面配置:

    <configuration>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>file:/usr/local/hadoop/tmp</value>
            <description>Abase for other temporary directories.</description>
        </property>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    </configuration>
    

    修改配置文件etc/hadoop/hdfs-site.xml

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>

    Hadoop安装教程_单机/伪分布式配置_Hadoop2.4.1_Ubuntu14.04

    环境

    • 系统: Ubuntu 14.04 64bit
    • Hadoop版本: Hadoop 2.4.1 (stable)
    • JDK版本: OpenJDK 7

    本教程基于 Hadoop 2.4.1,但对于 Hadoop 2.x 版本应该都是适用的。

    创建hadoop用户

    如果你安装Ubuntu的时候不是用的hadoop用户,那么需要增加一个名为hadoop的用户,并将密码设置为hadoop

    创建用户

    sudo useradd hadoop
    

    修改密码为hadoop,按提示输入两次密码

    sudo passwd hadoop
    

    给hadoop用户创建目录,方可登陆

    sudo mkdir /home/hadoop
    sudo chown hadoop /home/hadoop
    

    可考虑为 hadoop 用户增加管理员权限,方便部署,避免一些权限不足的问题:

    sudo adduser hadoop sudo
    

    最后注销当前用户,使用hadoop用户进行登陆。

    安装SSH server、配置SSH无密码登陆

    Ubuntu默认安装了SSH client,还需要安装SSH server。

    sudo apt-get install openssh-server
    

    集群、单节点模式都需要用到SSH无密码登陆,首先设置SSH无密码登陆本机。

    输入命令

    ssh localhost
    

    会有如下提示(SSH首次登陆提示),输入yes。

    SSH首次登陆提示SSH首次登陆提示

    然后按提示输入密码hadoop,这样就登陆到本机了。但这样的登陆是需要密码的,需要配置成无密码登陆。

    先退出刚才的ssh,然后生成ssh证书:

    exit                           # 退出 ssh localhost
    cd ~/.ssh                      # 如果没有该目录,先执行一次ssh localhost
    ssh-keygen -t rsa              # 一直按回车就可以
    cp id_rsa.pub authorized_keys
    

    此时再用ssh localhost命令,就可以直接登陆了,如下图所示。

    SSH无密码登陆SSH无密码登陆

    安装Java环境

    以前的教程都是建议安装Oracle的JDK,不建议使用OpenJDK,不过按http://wiki.apache.org/hadoop/HadoopJavaVersions中说的,新版本在OpenJDK 1.7下是没问题的。通过命令安装OpenJDK 7。

    sudo apt-get install openjdk-7-jre openjdk-7-jdk
    

    默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (可以通过命令dpkg -L openjdk-7-jdk看到)。安装完后就可以使用了,可以用java -version检查一下。

    需要配置一下 JAVA_HOME 环境变量,这个环境变量很多地方都会用到,在 /etc/environment 中配置:

    sudo vim /etc/environment
    

    在文件末尾添加一行:

    JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64"
    

    保存,最后需要注销然后再次登陆,或重启一下,才能保证 JAVA_HOME 在新打开的终端窗口中都能使用(注销、重启后,新打开一个终端窗口,输入 echo $JAVA_HOME 检验)。

    安装Hadoop 2.4.1

    2.4.1的下载地址为: http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gz,安装教程主要参考了官方教程http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

    下载后,解压到/usr/local/中。

    sudo tar -zxvf ~/下载/hadoop-2.4.1.tar.gz -C /usr/local   # 解压到/usr/local中
    sudo mv /usr/local/hadoop-2.4.1/ /usr/local/hadoop      # 将文件名改为hadoop
    sudo chown -R hadoop:hadoop /usr/local/hadoop       # 修改文件权限
    

    Hadoop解压后即可使用。输入如下命令Hadoop检查是否可用,成功则会显示命令行的用法:

    /usr/local/hadoop/bin/hadoop
    

    Hadoop单机配置

    Hadoop默认配置是以非分布式模式运行,即单Java进程,方便进行调试。可以执行附带的例子WordCount来感受下Hadoop的运行。例子将Hadoop的配置文件作为输入文件,统计符合正则表达式dfs[a-z.]+的单词的出现次数。

    cd /usr/local/hadoop
    mkdir input
    cp etc/hadoop/*.xml input
    bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
    cat ./output/*
    

    执行成功后如下所示,输出了作业的相关信息,输出的结果是符合正则的单词dfsadmin出现了1次

    Hadoop单机WordCount输出结果Hadoop单机WordCount输出结果

    再次运行会提示出错,需要将./output删除。

    rm -R ./output
    

    Hadoop伪分布式配置

    Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点即是NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xmletc/hadoop/hdfs-site.xml。Hadoop的配置文件是xml格式,声明property的name和value。

    修改配置文件etc/hadoop/core-site.xml,将

    <configuration>
    </configuration>
    

    修改为下面配置:

    <configuration>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>file:/usr/local/hadoop/tmp</value>
            <description>Abase for other temporary directories.</description>
        </property>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    </configuration>
    

    修改配置文件etc/hadoop/hdfs-site.xml

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
    </configuration>
    

    关于配置的一点说明:上面只要配置 fs.defaultFS 和 dfs.replication 就可以运行,不过有个说法是如没有配置 hadoop.tmp.dir 参数,此时 Hadoop 默认的使用的临时目录为 /tmp/hadoo-hadoop,而这个目录在每次重启后都会被干掉,必须重新执行 format 才行(未验证),所以伪分布式配置中最好还是设置一下。此外也需要显式指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否则下一步可能会出错。

    配置完成后,首先初始化文件系统 HDFS:

    bin/hdfs namenode -format
    

    成功的话,最后的提示如下,Exitting with status 0 表示成功,Exitting with status 1: 则是出错。若出错,可试着加上 sudo, 既 sudo bin/hdfs namenode -format 试试看。

    初始化HDFS文件系统初始化HDFS文件系统

    接着开启NaneNodeDataNode守护进程。

    sbin/start-dfs.sh
    

    若出现下面SSH的提示,输入yes即可。

    启动Hadoop时的SSH提示启动Hadoop时的SSH提示

    有可能会出现如下很多的warn提示,下面的步骤中也会出现,特别是native-hadoop library这个提示,可以忽略,并不会影响hadoop的功能。想解决这些提示可以看后面的附加教程(最好还是解决下,不困难,省得看这么多无用提示)。

    启动Hadoop时的warn提示启动Hadoop时的warn提示

    成功启动后,可以通过命令jps看到启动了如下进程NameNodeDataNodeSecondaryNameNode

    通过查看启动日志分析启动失败原因

    有时Hadoop无法正确启动,如 NameNode 进程没有顺利启动,这时可以查看启动日志来排查原因,不过新手可能需要注意几点:

    • 启动时会提示形如 “Master: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.out”,其中 Master 对应你的机器名,但其实启动日志信息是记录在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.log 中,所以应该查看这个 .log 的文件;
    • 每一次的启动日志都是追加在日志文件之后,所以得拉到最后面看,这个看下记录的时间就知道了。
    • 一般出错的提示在最后面,也就是写着 Fatal、Error 或者 Java Exception 的地方。

    通过jps查看启动的Hadoop进程通过jps查看启动的Hadoop进程

    此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。

    Hadoop的Web界面Hadoop的Web界面

    Hadoop伪分布式实例-WordCount

    首先创建所需的几个目录

    bin/hdfs dfs -mkdir /user
    bin/hdfs dfs -mkdir /user/hadoop
    

    接着将etc/hadoop中的文件作为输入文件复制到分布式文件系统中,即将/usr/local/hadoop/etc/hadoop复制到分布式文件系统中的/user/hadoop/input中。上一步创建的 /user/hadoop 相当于 HDFS 中的用户当前目录,可以看到复制文件时无需指定绝对目录,下面的命令的目标路径就是 /user/hadoop/input:

    bin/hdfs dfs -put etc/hadoop input
    

    运行MapReduce作业,执行成功的话跟单机模式相同,输出作业信息。

    bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
    

    查看运行结果

    bin/hdfs dfs -cat output/*
    

    也可以将运行结果取回到本地。

    rm -R ./output
    bin/hdfs dfs -get output output
    cat ./output/*
    

    结果如下,注意到跟单机模式中用的不是相同的数据,所以运行结果不同(换成原来的数据,结果是一致的)。

    Hadoop伪分布式运行WordCout结果Hadoop伪分布式运行WordCout结果

    可以看到,使用bin/hdfs dfs -命令可操作分布式文件系统, 如

    bin/hdfs dfs -ls /user/hadoop           # 查看`/user/hadoop`中的文件
    bin/hdfs dfs -rm -R /user/hadoop/input/*    # 删除 input 中的文件
    bin/hdfs dfs -rm -R /user/hadoop/output     # 删除 output 文件夹
    
    运行程序时,输出目录需不存在

    运行 Hadoop 程序时,结果的输出目录(如output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。建议在程序中加上如下代码进行删除,避免繁琐的命令行操作:

    Configuration conf = new Configuration();
    Job job = new Job(conf);
    ...
    /* 删除输出目录 */
    Path outputPath = new Path(args[1]);
    outputPath.getFileSystem(conf).delete(outputPath, true);
    ...
    

    结束Hadoop进程,则运行

    sbin/stop-dfs.sh
    
    注意

    下次再启动hadoop,无需进行HDFS的初始化,只需要运行 sbin/stop-dfs.sh 就可以!

    hbase配置:

    修改文件conf/hbase_env.sh

    添加export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.26

    修改文件conf/hbase_site.xml

    <configuration>

        <property>

        <name>hbase.rootdir</name>

        <value>hdfs://localhost:9000/hbase</value>
      </property>

      <property>

        <name>hbase.cluster.distributed</name>

        <value>false</value>

     
      </property>
    几个注意点:

    第一,hdfs://localhost:9000/hbase这条属性要与hadoop中core_site.xml中的配置要相同

    第二,要预先在hdfs文件系统中建立hbase文件夹

    第三,我们配置的是伪分布式的hadoop,所以hbase.cluster.distributed属性为false

  • 相关阅读:
    11
    不错的Spring学习笔记(转)
    面相对象
    Shiro框架学习
    浅谈重载与重写
    二叉树的Java实现及特点总结
    Spring注解及作用
    java中String与StringBuilder的区别
    Java String, StringBuffer和StringBuilder实例
    Docker Mysql主从同步配置搭建
  • 原文地址:https://www.cnblogs.com/elnino/p/4442840.html
Copyright © 2011-2022 走看看