zoukankan      html  css  js  c++  java
  • 007 linux环境下的伪分布式环境搭建

    本文的配置环境是VMware10+centos2.5。

    在学习大数据过程中,首先是要搭建环境,通过实验,在这里简短粘贴书写关于自己搭建大数据伪分布式环境的经验。

    如果感觉有问题,欢迎咨询评论。

    零:下载ruanjian

    1.下载

      

     

    2.下载网址

      https://archive.apache.org/dist/hadoop/common/ 

     

    :伪分布式准备工作

    1.规划目录

      

    2.修改目录所有者和所属组

      

    3.删除原有的jdk

      

    4.上传需要的jdk

        

    5.增加jdk 的执行权限

      

    6.解压jdk

       

    7.修改profileJAVA_HOMEPATH

      

    8.使文件生效

      不需要使用root用户。

       

    9.检验jdk是否成功

      

      

    二:搭建为分布式(主要是namenode与datanode)

    1.解压hadoop

      

    2.进入hadoop主目录

      

    3.获取JAVA_HOME的目录

      

    4.*.env.sh

      

    5.修改hadoop-env.shJAVA_HOME

      

      

    6.修改mapred-env.hJAVA_HOME

      虽然官网没说,但是也需要修改。

      

    7.修改yarn-env.shJAVA_HOME

      虽然官网没说,但是也需要修改。

      

     8.*-site.xml配置

      

    9.配置core-site.xml

      8020是交互端口,namenode启动以后,可以通过浏览器进行访问hdfs文件系统。

      新建一个临时目录:

        注意点:sudo chown -R beifeng:beifeng data

      

      配置:

      

    10.修改slave的配置

      

    11.修改hdfs.site.xml

       

    12.执行

      

    13.检验hdfs

      

    14.格式化hdfs

      对文件操作系统进行格式化。

       

       

    15.启动namenode 以及datanode进程

      注意:

        sudo chmod -R a+w hadoop-2.5.0/ 增加权限,因为要产生log文件夹。

      

    16.查看浏览器,方便管理HDFS

      http://linux-hadoop01.ibeifeng.com:50070/

      

    17.HDFS上新建文件夹

      

       

    15.HDFS上上传文件

       

       

    16.HDFS上读取wenjian

       

    17.HDFS上下载文件到本地

       

    18.删除在HDFS上的文件

      bin/hdfs dfs -rm -f core-site.xml

      如果不知道可以使用bin/hdfs dfs ,在确认后就弹出使用方法

    三:继续搭建伪分布式(YARN部分的搭建)

    1.官网

      

    2.配置yarn-site.xml

       

    2..配置MapReduce的配置,MapReduce.site.xml

      表示mapreduce将要运行在yarn上

      

    3.启动

      sbin/yarn-daemon.sh start resourcemanager

      sbin/yarn-daemon.sh start nodemanager

      

    4.浏览器上观察

      端口为8088.

       http://linux-hadoop01.ibeifeng.com:8088

    5.新建将要测试的文件

       

      

    6.HDFS上新建文件目录

       

      

    7.上传本地的wc.input文件进刚刚新建的目录

        

      

    8.yarn上运行计算

      bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount mapreduce/wordcount/input mapreduce/wordcount/output1

       

       

    9.查看结果

      bin/hdfs dfs -text mapreduce/wordcount/output1/pa*   

      

      这个时候因为没有配置历史服务器,所以在途中的history没有用。

      

    四:历史服务器的配置 

    1.配置历史服务器,修改mapred-xite.xml

      历史服务器可以查看已经完成的MR程序作业记录。

      默认情况下历史服务器是不启动的。

      所以配置在mapred-site.xml中。

      

    2.启动服务器

      

    3.建议历史服务器在yarn启动之后紧接着启动

      sbin/mr-jobhistory-daemon.sh start historyserver

       

    4.浏览器观察

      web端口是19888.

      再点击一下刚才的history,这里不需要再次运行mapreduce程序。

      

    五:日志聚集功能

    1.问题由来

      这个log的聚集主要说的是yarn里面的日志功能。

      会将MR程序运行的日志上传到HDFS上的目录中,默认会在‘/’下产生一个tmp目录,这个tmp可以在HDFS的50070上看到,同时这个tmp对用户是无效的,没有权限。

      很多mapreduce会对应需要的日志,如果将日志聚集到hdfs上,可以方便的查看。

      19888上的logs:

      

      50070上的tmp

      

    2.日志聚集功能,修改yarn.site.xml

      

    3.重新启动resourcemanager,nodemanager,jobhistory

      

    6.再次在yarn上运行程序

      

    7.这时就可以点击logs,在yarn的管理页面上观看日志文件

      

    8.logs点击的结果

      

    但是问题还是没有完全解决好,有下面的问题。

    9.HDFS用户权限的修改,点击tmp时,出现的问题效果

      

    10.修改hdfs.xite.xml,使hdfs不在检查用户权限

      HDFS上会存在用户权限检查。

      

    11.重新启动HDFS

      这个时候,其实,yarn也需要关闭,只是在验证tmp时可以不启动yarn。

      

    12.再次点击tmp,即可进入

      

    六:静态用户名的修改

    1.修改静态用户名,之前的状态

      

      

     2.修改core.site.xml

      

    3.重启HDFS和YARN

      

    4.重启任务

      

    5.这时静态用户将会变成设置的用户

      

        

     

  • 相关阅读:
    maven下载出错
    Android中TextView和EditView常用属性设置
    在python3.6环境下使用cxfreeze打包程序
    Python安装环境配置和多版本共存
    python manage.py migrate出错
    python使用pip安装模块出错 Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None))
    类的继承
    显示一张大图两张小图思路!banner数据库设计
    微信模板
    微擎小程序第二次请求 promise
  • 原文地址:https://www.cnblogs.com/juncaoit/p/5874568.html
Copyright © 2011-2022 走看看