zoukankan      html  css  js  c++  java
  • Linux安装部署Hadoop及统计单词次数测试

    今天来一起学习一下Linux安装以及部署Hadoop环境

    Ps:需要安装jdk,没有安装的小伙伴移步到:点我快速进入安装jdk文章

    一、下载Hadoop及上传服务器(两种方式)

    1、手动下载然后上传服务器 下载地址:https://hadoop.apache.org/releases.html

    file

    2、自动下载

    命令:wget http://apache.fayea.com/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
    

    file

    以上任选其一进行下载删除,创建文件夹已经怎么上传 我就不赘述了。 你看了我很多博客,你已经是个成熟的程序员了。

    file

    二、解压Hadoop压缩包

    file

    三、ssh安装

    3.1、安装ssh:

    file

    yum install openssh-server
    

    3.2、创建ssh文件夹,在ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是一对私钥和公钥,然后把id_dsa.pub(公钥)追加到授权的key里面去。

    file

    3.3登录ssh

    file

    1、登录ssh:ssh localhost
    2、第一次会询问是否继续 输入yes即可(没提示忽略此话)
    3、输入密码:服务器密码
    

    四、配置Hadoop

    4.1找到你本地jdk目录(没有安装jdk请移步点我快速进入安装jdk文章

    file

    4.2修改/kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hadoop-env.sh 指定jdk的安装目录

    file

    进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/
    修改命令:vim hadoop-env.sh
    修改jdk安装目录:export JAVA_HOME=/DATA/jdk/jdk1.8.0_211
    

    4.3创建一个hadoop运行时产生文件的存储路径文件夹

    file

    进入目录:cd /kingyifan/hadoop/hadoop-2.7.7
    创建目录:mkdir temp
    

    4.4 修改core-site.xml文件

    file

    进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
    创建目录:vim core-site.xml
    增加以下配置:
    <configuration>
        <!-- 指定HDFS老大(namenode)的通信地址 -->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://0.0.0.0:9000</value>
        </property>
        <!-- 指定hadoop运行时产生文件的存储路径 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/kingyifan/hadoop/hadoop-2.7.7/temp</value>
        </property>
    </configuration>
    

    4.5修改hadoop2.7.3/etc/hadoop/hdfs-site.xml :

    file

    修改文件:vim  /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop/hdfs-site.xml 
    增加以下配置:
    <configuration>
       <property>
            <name>dfs.replication</name>
            <value>2</value>
       </property>
    
       <property>
           <name>dfs.datanode.max.xcievers</name>
           <value>4096</value>
       </property>
    </configuration>
    

    五、启动hadoop

    5.1 第一次启动需要格式化:

    file

    格式化目录:/kingyifan/hadoop/hadoop-2.7.7/bin/hdfs namenode -format(此命令可以在任意目录下执行,因为hdfs目录是绝对路径)
    

    file

    5.2启动hdfs

    file

    启动命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-dfs.sh
     输入第一次密码启动 namenode节点
     输入第二次密码启动datanode节点 这个节点如果没启动则上传不了文件 
     输入第三次密码启动secondarynamenode节点
    

    PS:切记要把三次密码输入正确,一定要把三个节点启动起来。不要用ctrl+c强制退出到控制台。

    datanode节点没启动成功 上传文件会报以下错误!

    file

    不知道启动没有启动成功:jps以下

    file

      查看启动的服务:jps
    

    ps:如果出现 root@0.0.0.0's password: 0.0.0.0: Permission denied, please try again. 解决方案如下:

    file

    5.3 关闭hdfs(此步骤可以不做。)

    file

     关闭hdfs命令: /kingyifan/hadoop/hadoop-2.7.7/sbin/stop-dfs.sh 
    

    5.4 修改iptables 增加50070端口访问权限

    file

    修改iptables:vim /etc/sysconfig/iptables
    增加-A INPUT -m state --state NEW -m tcp -p tcp --dport 50070 -j ACCEPT
    重启防火墙:service iptables restart
    

    5.5、访问ui页面:http://192.168.241.134:50070

    file

    六、安装yarn Hadoop的资源管理器

    6.1、先甩一个百度百科的资源管理器资料。

    file

    6.2、配置mapred-site.xml文件

    6.2.1 复制一个模板配置出来。

    file

       进入目录:cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
       复制一个模板出来:cp mapred-site.xml.template mapred-site.xml
    

    6.2.2 修改刚刚复制的文件

    file

       1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop
       2、修改文件 vim mapred-site.xml
       3.、添加以下配置:
      <configuration>
     <!-- 通知框架MR使用YARN -->
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    

    6.3 修改yarn-site.xml:

    file

    
    1、进入目录 cd /kingyifan/hadoop/hadoop-2.7.7/etc/hadoop  
    2、修改文件vim yarn-site.xml
    3.、添加以下配置:
    <configuration>
    <!-- Site specific YARN configuration properties -->
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
    </configuration>
    

    6.4 YARN的启动

    file

    启动命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
    输入服务器密码
    jps 查询一下
    

    6.5 关闭YARN

    file

     关闭命令:/kingyifan/hadoop/hadoop-2.7.7/sbin/start-yarn.sh
     输入服务器密码
    

    6.6 修改iptables 增加一下8088端口

    file

       进入iptables配置:vim /etc/sysconfig/iptables
       增加8088配置:-A INPUT -m state --state NEW -m tcp -p tcp --dport 8088 -j ACCEPT
       重启防火墙:service iptables restart
    

    6.7、访问ui页面:http://192.168.241.134:8088/cluster

    file

    七、简单运行一个统计单词出现

    7.1 在hadoop根目录 创建一个test的文本文件夹

    file

     进入hadoop目录:cd /kingyifan/hadoop/hadoop-2.7.7
     创建一个文本文件夹:vim test.txt
     随便输入一点东西
    

    7.2上传test.txt

    file

     上传hdfs根目录: /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop  fs  -put /kingyifan/hadoop/hadoop-2.7.7/test.txt   /
    

    查看是否上传成功:

    file

    统计单词次数:

    用hadoop执行一个叫 hadoop-mapreduce-examples.jar 的 wordcount 方法,其中输入参数为 hdfs上根目录的test.txt 文件,而输出路径为 hdfs跟目录下的out目录,运行过程如下:

    file

    命令: /kingyifan/hadoop/hadoop-2.7.7/bin/hadoop  jar  /kingyifan/hadoop/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount hdfs://127.0.0.1:9000/test.txt hdfs://127.0.0.1:9000/out
    

    查看执行结果:

    file

    file

    file

    点击Download 如果出现下面这种情况

    file

    增加iptables防火墙 50075配置

    file

    然后把访问路径localhost改为服务器ip地址。

    file

    打开part-r-0000文件查看统计单词次数:

    file

    以上就是单词统计出现次数程序

    如果修改了test.txt 文件怎么重新计算呢。直接执行计算命令,会有以下报错。

    file

    报错原因 说out目录已经存在

    file

    两种解决方案:

    1.删除out目录

    file

    命令:/kingyifan/hadoop/hadoop-2.7.7/bin/hadoop fs -rm -r /out out是目录名称
    

    2.执行命令的时候把out改成别的 例:out1 out2。。

    重新计算单词个数步骤:

    1.删除根目录test.txt文件

    2.重新上传test.txt文件

    3.删除out目录

    4.执行计算命令(以上步骤都有。)

    终、、


    以上linux安装及部署Hadoop 以及测试统计单词出现次数 有什么问题可以联系我哈。

    鼓励作者写出更好的技术文档,就请我喝一瓶哇哈哈哈哈哈哈哈。。你们的赞助决定我更新的速度哦!

    微信:

    支付宝:


    感谢一路支持我的人。。。。。
    
    Love me and hold me
    QQ:69673804(16年老号)
    EMAIL:itw@tom.com
    友链交换
    如果有兴趣和本博客交换友链的话,请按照下面的格式在评论区进行评论,我会尽快添加上你的链接。
    

    网站名称:KingYiFan’S Blog
    网站地址:http://blog.cnbuilder.cn
    网站描述:年少是你未醒的梦话,风华是燃烬的彼岸花。
    网站Logo/头像: [头像地址](https://blog.cnbuilder.cn/upload/2018/7/avatar20180720144536200.jpg)
    
  • 相关阅读:
    Grovvy初识
    在eclipse中安装插件
    解决 APPARENT DEADLOCK!!! Creating emergency threads for unassigned pending tas
    Axis2 webservice入门--Webservice的发布与调用
    一步一步教你自定义博客园(cnblog)界面
    Enum枚举
    并行与并发
    多线程join(加入)
    守护线程
    停止线程
  • 原文地址:https://www.cnblogs.com/kingyifan/p/11721427.html
Copyright © 2011-2022 走看看