zoukankan      html  css  js  c++  java
  • CentOS6.5x64搭建Hadoop环境

      首先总结一下之所以被搭建大数据环境支配的原因:浮躁。 总是坐不住,总是嫌视频太长,总是感觉命令太杂太多,所以就不愿去面对。

      在抖音上听到一句话:“为什么人们不愿吃学习的苦而能吃社会的苦? 因为学习的苦需要主动去吃,所以没人愿意,到了社会上,社会的苦不得不吃。”

      有些时候,有些坎坷,我们必须要亲身经历,就算你逃避,也终有一天会面对它。就像我,觉得教科书文字枯燥,不如看视频跟着敲直接。但是绕了一圈,终究我还是回归到了教科书。

      我发现白彦峰老师编的这本《大数据技术基础实验教程》真是一本神书!只要,你一步一步跟着做,别跑偏,保准没有Bug。

    大致流程我分成了六件事情:

    第一件事:配置VMWare Workstation的NAT模式的IP

    需要资源:VMWare Workstations版本9及以上

    这需要你掌握以下几个名词:

      1. 网络适配器   

        1.1 桥接模式   

        1.2 NAT模式   

        1.3 仅主机模式  

      2. 子网IP

      3. 子网掩码  

      4. 网关  

      5. DNS  

    第二件事:手动配置IP

    需要资源:CentOS6.5x64位操作系统

    你需要掌握以下几个名词:  

      1. Linux操作系统  

      2. 32位、64位操作系统及应用软件  

      3. IPv4协议   

        3.1 DHCP获取IP   

        3.2 手动设置IP  

      4. /etc/hosts  

      5. /etc/sysconfig/network   

    第三件事:安装JDK

    需要资源:jdk1.7或jdk1.8或jdk11x64位安装包

    你需要掌握以下几个名词:  

      1. Oracle公司  

      2. JDK版本  

      3. 环境变量   

        3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别   

        3.2 JAVA_HOME 和 PATH 的关系   

    第四件事:SSH免密登录

    需要资源:无

    你需要掌握以下几个名词:  

      1. ssh协议  

      2. 授权文件authorized_keys及其文件权限600  

      3. 私钥id_rsa及公钥id_rsa.pub  

    第五件事:安装配置Hadoop

    需要资源:Hadoop-2.*x64位二进制安装包

    你需要掌握以下几个名词:  

      1. Apache组织  

      2. Hadoop软件文件组成  

      3. 两个环境变量配置文件   

        3.1 Hadoop中配置JAVA环境变量文件:hadoop-env.sh   

        3.2 Yarn中配置JAVA环境变量文件  : yarn-env.sh  

      4. 四个必要的配置文件   

        4.1 核心组件配置文件: core-site.xml   

        4.2 文件系统配置文件: hdfs-site.xml   

        4.3 yarn配置文件:     yarn-site.xml   

        4.4 MapReduce配置文件:mapred-site.xml    

      5. 一个节点文件:slaves    

      6. ssh跨主机递归复制文件命令 scp -r

    第六件事:启动集群

    资源:三个主机

    你需要掌握以下几个名词:  

      1. HDFS  

      2. namenode 的格式化  

      3. start-dfs.sh 命令  

      4. start-yarn.sh 命令

      5. jps命令    

        namenode   

        seconderynamenode   

        datanode   

        sourcemanager   

        nodemanager   

        jps  

      5. 端口50070、9000、18088  

      6. MapReduce实例

    接下来说说我和Bug斗争的心酸血泪史(深夜胡话,只有我自己能看懂,建议略过):  

      第一件事:配置VMWare Workstation的NAT模式的IP  

      一开始我没有配workstation的IP,觉得默认就可以了,操作黑盒子的结果就是导致无知。

    后来,我知道了1. 网络适配器,是一个驱动(软件),我Windows的网就经常坏掉,然后经常去禁用网络适配器。

    后来,我知道了1.1 桥接模式、1.2 NAT模式、1.3 仅主机模式这三个网络适配器分配IP的方式。

    后来,我知道了2. 子网IP、3. 子网掩码、4. 网关、5. DNS这几个是怎样结合起来构建整个网络系统的。  

      第二件事:手动配置IP  

      由于一开始没有配workstation的IP,直接导致了我没有去操作系统里面进行手动配置IP地址,同样是操作黑盒子的结果就是导致无知。

    后来,我知道了3. IPv4协议

    后来,我知道了3.1 DHCP获取IP与3.2 手动设置IP之间的区别

    后来,我知道了4. /etc/hosts与5. /etc/sysconfig/network两个文件的作用

    顺带了解了一下1. Linux操作系统与2. 32位、64位操作系统及应用软件的爱恨情仇  

      第三件事:安装JDK  

      由于我学习JAVA的时候就了解过1. Oracle公司、2. JDK版本、3. 环境变量, 所以在这件事上没吃多大的亏

    唯一就是Windows上只分用户、系统两个环境变量 然而Linux中分三个环境变量:3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别  

      第四件事:SSH免密登录  

      同样是因为我之前学习Git的时候了解过1. ssh协议、2. 授权文件authorized_keys及其文件权限600、3. 私钥id_rsa及公钥id_rsa.pub 所以在这件事上是最轻松的。  

    这里有个文件权限600,本可以说上一段的,但这里只需要背住就行,authorized_keys文件的权限只能是600,否则文件不管用。  

      第五件事:安装配置Hadoop  

      这件事先是从零开始听说Hadoop,

    后来,我才知道Hadoop属于1. Apache

    由于我跟着视频操作,老师带着了解过2. Hadoop软件文件组成及文件配置,还有ssh连接与文件传输,

    所以这件事上也相对轻松,不过有个坑是由于我的不小心,把yarn-site.xml中配置的<value>master:18088 </value> 端口号后面都误加了一个空格,导致yarn的resourcemanager无法启动,

    找了半天,最后还是找到日志文件,才看出一些端倪。 查看启动日志的方式是:

    cd hadoop-2.8.5/logs/

    tail -500 yarn-jmxx-resourcemanager-master.log

    日志告诉我说,number format error ,就一个number提醒了我,是不是端口号写的有问题,一看果真是多了一个空格。

    在此感激教会我看日志的人,其博客地址:https://blog.csdn.net/u010180815/article/details/79070870?utm_source=blogxgwz2  

      第六件事:启动集群  

      最后了,说两点:  

      一开始由于没有安装书上的配置方法配置,导致hdfs生成的data、logs文件总是权限不足,这就会导致namenode无法启动 需要先把data、logs文件夹删除,然后再进行namenode格式化,才能启动。

      还有一件事就是,电脑配置不高的,跑MapReduce的时候,参数设置成5-10就可以了,否则一个计算pi,需要跑上20分钟。  

    结尾:

      搭建环境这么麻烦,真的不想再让你们遭罪,可以联系我,找我要搭建好的镜像资源。

      能面谈的面谈,面谈不了的发我QQ邮箱找我要:

      424171723@qq.com

      出门记得点赞哟!

  • 相关阅读:
    C++中 destory() 和deallocate()以及delete函数的相关性和区别性
    由STL所想到的 C++显示调用析构函数
    MINIX3 内核整体架构回顾及内核定 性分析
    有一个无效 SelectedValue,因为它不在项目列表中
    SqlParameter.Value = NULL 引发的数据库异常
    前端解决跨域问题的8种方案(最新最全)
    SQL语句优化技术分析 整理他人的
    暂时未整理 已打印
    .Net_把文件数据添加到数据库中(面试题)
    ASP.NET中application对象的用法(面试题)
  • 原文地址:https://www.cnblogs.com/littlecurl/p/BigData.html
Copyright © 2011-2022 走看看