zoukankan      html  css  js  c++  java
  • Hadoop的学习--安装配置与使用

    安装配置

    系统:Ubuntu14.04
    java:1.7.0_75

    相关资料

    官网
    下载地址
    官网文档

    安装

    我们需要关闭掉防火墙,命令如下:

    sudo ufw disable
    

    下载2.6.5的版本,将下载的Hadooop的压缩包解压到相应的目录,我这里解压到/opt/hadoop-2.6.5文件夹下。

    配置

    修改/opt/hadoop-2.6.5/etc/hadoop/hadoop-env.sh文件,将JAVA_HOME直接写地址,默认的方式可能取不到

    export JAVA_HOME=/usr/lib/jvm/default-java
    

    修改/opt/hadoop-2.6.5/etc/hadoop/core-site.xml文件,将configuration中的内容配置如下:

    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://linux01:9000/</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/var/data</value>
        </property>
    </configuration>
    

    这里定义了HDFS文件访问路径以及其真正的存储路径,其中的linux01是在/etc/hosts文件中配置的域名,其实就是本地IP 127.0.0.1

    修改/opt/hadoop-2.6.5/etc/hadoop/hdfs-site.xml文件,将configuration中的内容配置如下:

    <configuration>
        <property>
            <!-- 副本数 -->
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    </configuration>
    

    这里定义了HDFS的副本数,默认是3,我这里只有一台机器,就配置成1了。如果是多台且配置了多个副本,可以避免因一台机器故障而造成的数据丢失。

    修改/opt/hadoop-2.6.5/etc/hadoop/mapred-site.xml文件,将configuration中的内容配置如下:

    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    

    这里定义了处理MapReduce的框架是yarn。

    修改/opt/hadoop-2.6.5/etc/hadoop/yarn-site.xml文件,将configuration中的内容配置如下:

    <configuration>
    <!-- Site specific YARN configuration properties -->
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>linux01</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    </configuration>
    

    然后需要配置一下Hadoop的环境变量,我配置在/etc/profile中:

    # Hadoop config
    export HADOOP_HOME=/opt/hadoop-2.6.5
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    

    这就就可以在任意目录,直接使用hadoop的命令了。

    简单使用

    先格式化HDFS的磁盘,再启动HDFS,命令如下

    // 格式化HDFS的磁盘
    hdfs namenode -format
    // 启动HDFS
    start-dfs.sh
    

    如果启动时报错如下:

    Error: JAVA_HOME is not set and could not be found.
    

    其解决办法如下:

    修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME。使用绝对路径。

    export JAVA_HOME=$JAVA_HOME                  // 错误,不能这么改
    export JAVA_HOME=/usr/java/jdk1.6.0_45        // 正确,应该这么改
    

    这是我们就可以使用HDFS了,可以使用如下命令操作

    // 查看文件列表
    hadoop fs -ls hdfs://linux01:9000/
    hadoop fs -ls /
    
    // 添加文件
    hdfs dfs -put localfile /user/hadoop/hadoopfile
    hdfs dfs -put localfile1 localfile2 /user/hadoop/hadoopdir
    hdfs dfs -put localfile hdfs://linux01:9000/hadoop/hadoopfile
    
    // 获取文件
    hdfs dfs -get /user/hadoop/file localfile
    hdfs dfs -get hdfs://linux01:9000/user/hadoop/file localfile
    
    // 删除文件
    hdfs dfs -rm hdfs://linux01:9000/hadoop/hadoopfile /user/hadoop/emptydir
    

    更多操作可以查看2.6.5的官方文档FileSystem Shell

    可以通过jps命令查看,其结果如下

    18069 SecondaryNameNode
    17879 DataNode
    17760 NameNode
    6547 Jps
    16316 ResourceManager
    16667 NodeManager
    

    可以通过start-yarn.sh命令启动yarn,也可以通过start-all.sh启动所有。

  • 相关阅读:
    Shell入门教程:命令替换 $() 和 ``
    CentOS启用sudo,禁用root远程登录
    .htaccess 基础教程(四)Apache RewriteCond 规则参数
    .htaccess 基础教程(三)RewriteCond标志符,RewriteRule适用的标志符
    .htaccess 基础教程(二)
    .htaccess 基础教程(一)
    phpMyAdmin 个性化设置,字体大小设置,去掉“以树形显示数据库”,禁用“发送错误报告”
    PHP的$_SERVER['PHP_SELF']造成的XSS漏洞攻击及其解决方案
    PHP变量作用域(花括号、global、闭包)
    获取PHP文件绝对地址$_SERVER['SCRIPT_FILENAME'] 与 __FILE__ 的区别
  • 原文地址:https://www.cnblogs.com/CraryPrimitiveMan/p/6083374.html
Copyright © 2011-2022 走看看