zoukankan      html  css  js  c++  java
  • Linux安装部署Hadoop及统计单词次数测试

    今天来一起学习一下Linux安装以及部署Hadoop环境

    Ps:需要安装jdk,没有安装的小伙伴移步到:点我快速进入安装jdk文章

    一、下载Hadoop及上传服务器(两种方式)

    1、手动下载然后上传服务器 下载地址:https://hadoop.apache.org/releases.html

    file

    2、自动下载

    命令:wget http://apache.fayea.com/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
    

    file

    以上任选其一进行下载删除,创建文件夹已经怎么上传 我就不赘述了。 你看了我很多博客,你已经是个成熟的程序员了。

    file

    二、解压Hadoop压缩包

    file

    三、ssh安装

    3.1、安装ssh:

    file

    yum install openssh-server
    

    3.2、创建ssh文件夹,在ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是一对私钥和公钥,然后把id_dsa.pub(公钥)追加到授权的key里面去。

    file

    3.3登录ssh

    file

    1、登录ssh:ssh localhost
    2、第一次会询问是否继续 输入yes即可(没提示忽略此话)
    3、输入密码:服务器密码
    

    四、配置Hadoop

    4.1找到你本地jdk目录(没有安装jdk请移步点我快速进入安装jdk文章

    file

    4.2修改/kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hadoop-env.sh 指定jdk的安装目录

    file

    进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/
    修改命令:vim hadoop-env.sh
    修改jdk安装目录:export JAVA_HOME=/DATA/jdk/jdk1.8.0_211
    

    4.3创建一个hadoop运行时产生文件的存储路径文件夹

    file

    进入目录:cd /kingyifan/hadoop/hadoop-2.7.7
    创建目录:mkdir temp
    

    4.4 修改core-site.xml文件

    file

    进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
    创建目录:vim core-site.xml
    增加以下配置:
    <configuration>
        <!-- 指定HDFS老大(namenode)的通信地址 -->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://0.0.0.0:9000</value>
        </property>
        <!-- 指定hadoop运行时产生文件的存储路径 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/kingyifan/hadoop/hadoop-2.7.7/temp</value>
        </property>
    </configuration>
    

    4.5修改hadoop2.7.3/etc/hadoop/hdfs-site.xml :

    file

    修改文件:vim  /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hdfs-site.xml 
    增加以下配置:
    <configuration>
       <property>
            <name>dfs.replication</name>
            <value>2</value>
       </property>
    
       <property>
           <name>dfs.datanode.max.xcievers</name>
           <value>4096</value>
       </property>
    </configuration>
    

    五、启动hadoop

    5.1 第一次启动需要格式化:

    file

    格式化目录:/kingyifan/hadoop/hadoop-2.7.7/bin/hdfs namenode -format(此命令可以在任意目录下执行,因为hdfs目录是绝对路径)
    

    file

    5.2启动hdfs

    file

    启动命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-dfs.sh
     输入第一次密码启动 namenode节点
     输入第二次密码启动datanode节点 这个节点如果没启动则上传不了文件 
     输入第三次密码启动secondarynamenode节点
    

    PS:切记要把三次密码输入正确,一定要把三个节点启动起来。不要用ctrl+c强制退出到控制台。

    datanode节点没启动成功 上传文件会报以下错误!

    file

    不知道启动没有启动成功:jps以下

    file

      查看启动的服务:jps
    

    ps:如果出现 root@0.0.0.0's password: 0.0.0.0: Permission denied, please try again. 解决方案如下:

    file

    5.3 关闭hdfs(此步骤可以不做。)

    file

     关闭hdfs命令: /kingyifan/hadoop/hadoop-2.7.7/sbin/stop-dfs.sh 
    

    5.4 修改iptables 增加50070端口访问权限

    file

    修改iptables:vim /etc/sysconfig/iptables
    增加-A INPUT -m state --state NEW -m tcp -p tcp --dport 50070 -j ACCEPT
    重启防火墙:service iptables restart
    

    5.5、访问ui页面:http://192.168.241.134:50070

    file

    六、安装yarn Hadoop的资源管理器

    6.1、先甩一个百度百科的资源管理器资料。

    file

    6.2、配置mapred-site.xml文件

    6.2.1 复制一个模板配置出来。

    file

       进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
       复制一个模板出来:cp mapred-site.xml.template mapred-site.xml
    

    6.2.2 修改刚刚复制的文件

    file

       1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
       2、修改文件 vim mapred-site.xml
       3.、添加以下配置:
      <configuration>
     <!-- 通知框架MR使用YARN -->
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    

    6.3 修改yarn-site.xml:

    file

    
    1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop  
    2、修改文件vim yarn-site.xml
    3.、添加以下配置:
    <configuration>
    <!-- Site specific YARN configuration properties -->
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
    </configuration>
    

    6.4 YARN的启动

    file

    启动命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
    输入服务器密码
    jps 查询一下
    

    6.5 关闭YARN

    file

     关闭命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
     输入服务器密码
    

    6.6 修改iptables 增加一下8088端口

    file

       进入iptables配置:vim /etc/sysconfig/iptables
       增加8088配置:-A INPUT -m state --state NEW -m tcp -p tcp --dport 8088 -j ACCEPT
       重启防火墙:service iptables restart
    

    6.7、访问ui页面:http://192.168.241.134:8088/cluster

    file

    七、简单运行一个统计单词出现

    7.1 在hadoop根目录 创建一个test的文本文件夹

    file

     进入hadoop目录:cd /kingyifan/hadoop/hadoop-2.7.7
     创建一个文本文件夹:vim test.txt
     随便输入一点东西
    

    7.2上传test.txt

    file

     上传hdfs根目录: /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop  fs  -put /kingyifan/hadoop/hadoop-2.7.7/test.txt   /
    

    查看是否上传成功:

    file

    统计单词次数:

    用hadoop执行一个叫 hadoop-mapreduce-examples.jar 的 wordcount 方法,其中输入参数为 hdfs上根目录的test.txt 文件,而输出路径为 hdfs跟目录下的out目录,运行过程如下:

    file

    命令: /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop  jar  /kingyifan/hadoop/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount hdfs://127.0.0.1:9000/test.txt hdfs://127.0.0.1:9000/out
    

    查看执行结果:

    file

    file

    file

    点击Download 如果出现下面这种情况

    file

    增加iptables防火墙 50075配置

    file

    然后把访问路径localhost改为服务器ip地址。

    file

    打开part-r-0000文件查看统计单词次数:

    file

    以上就是单词统计出现次数程序

    如果修改了test.txt 文件怎么重新计算呢。直接执行计算命令,会有以下报错。

    file

    报错原因 说out目录已经存在

    file

    两种解决方案:

    1.删除out目录

    file

    命令:/kingyifan/hadoop/hadoop-2.7.7/bin/hadoop fs -rm -r /out out是目录名称
    

    2.执行命令的时候把out改成别的 例:out1 out2。。

    重新计算单词个数步骤:

    1.删除根目录test.txt文件

    2.重新上传test.txt文件

    3.删除out目录

    4.执行计算命令(以上步骤都有。)

    终、、


    以上linux安装及部署Hadoop 以及测试统计单词出现次数 有什么问题可以联系我哈。

    鼓励作者写出更好的技术文档,就请我喝一瓶哇哈哈哈哈哈哈哈。。你们的赞助决定我更新的速度哦!

    微信:

    支付宝:


    感谢一路支持我的人。。。。。
    
    Love me and hold me
    QQ:69673804(16年老号)
    EMAIL:itw@tom.com
    友链交换
    如果有兴趣和本博客交换友链的话,请按照下面的格式在评论区进行评论,我会尽快添加上你的链接。
    

    网站名称:KingYiFan’S Blog
    网站地址:http://blog.cnbuilder.cn
    网站描述:年少是你未醒的梦话,风华是燃烬的彼岸花。
    网站Logo/头像: [头像地址](https://blog.cnbuilder.cn/upload/2018/7/avatar20180720144536200.jpg)
    
  • 相关阅读:
    支持向量机SVM知识点概括
    决策树知识点概括
    HDU 3081 Marriage Match II
    HDU 3572 Task Schedule
    HDU 4888 Redraw Beautiful Drawings
    Poj 2728 Desert King
    HDU 3926 Hand in Hand
    HDU 1598 find the most comfortable road
    HDU 4393 Throw nails
    POJ 1486 Sorting Slides
  • 原文地址:https://www.cnblogs.com/kingyifan/p/11721427.html
Copyright © 2011-2022 走看看