zoukankan      html  css  js  c++  java
  • Hadoop 在windows 上伪分布式的安装过程

    第一部分:Hadoop 在windows 上伪分布式的安装过程

    安装JDK

    1.下载JDK

           http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html

    2.解压

       或者直接运行.exe安装

    后面根据项目的实际需要来进行调整。

    安装 Cygwin

    1.下载Cygwin

        网址: http://www.cygwin.com/setup.exe

    2.安装Cygwin

    1. Net Category 下的OpenSSL

    2.    Base Category 下的sed

    3.Editors Category 下的vim

    4.Devel Category  下subversion

    后面根据项目的实际需要来进行调整。

    配置环境变量

    1.配置JAVA 环境变量

        PATH 和JAVA_HOME:

            JAVA_HOME 指向JDK安装目录;

            PATH 指向JDK的bin

    启动 SSHD 服务

    1.安装SSHD

       ssh-host-config

    2. 启动SSHD

        net start sshd 

    ssh 的安装和配置

    实现ssh无密码登陆

    $ssh-keygen -t rsa  

    直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对

    出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
    $cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

    安装 Hadoop

    1.下载Hadoop

       http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/

    2.解压Hadoop

             tar xzvf hadoop-0.21.0.tar.gz

    配置 Hadoop

    1. 配置hadoop-env.sh

    2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件

    概念

    HDFS:

          NameNode  :管理节点

          DataNode   :数据节点

          SecondaryNamenode : 数据源信息备份整理节点

    MapReduce

           JobTracker  :任务管理节点

           Tasktracker  :任务运行节点

    配置文件

           core-site.xml   common属性配置

           hdfs-site.xml    HDFS属性配置

           mapred-site.xml  MapReduce属性配置

           hadoop-env.sh     hadooop 环境变量配置

    修改 hadoop-env.sh

    配置JDK即可

    export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

    core-site.xml

    java代码:

    1. <configuration>      
    2. <property>   
    3.        <name>fs.default.name</name>   
    4.        <value>hdfs://localhost:9000</value> 
    5. </property>   
    6. <property> 
    7.        <name>hadoop.tmp.dir</name> 
    8.         <value>/hadoop</value> 
    9.      </property> 
    10. </configuration>   

    hdfs-site.xml

    java代码:

    1. <configuration>      
    2.    <property>   
    3.          <name>dfs.replication</name>   
    4.          <value>1</value>   
    5.     </property>   
    6. </configuration>   

    mapred-site.xml

    java代码:

    1. <configuration>      
    2.     <property>   
    3.          <name>mapred.job.tracker</name>   
    4.          <value>localhost:9001</value>   
    5.     </property>   
    6. </configuration>   

    启动 Hadoop

    1.格式化文件系统

          hadoop namenode –format

    2. 启动hadoop

          启动所有任务start-all.sh/stop-all.sh

          启动关闭HDFS: start-dfs.sh/stop-dfs.sh

          启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh      

    3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker

    第二部分:Hadoop 在linux  上单节点伪分布式的安装过程

    安装 JDK

    $chmod +x jdk-6u27-linux-i586.bin

    $./jdk-6u27-linux-i586.bin

    安装完后设置java 环境变量如下

    命令 :/home路径下

    $vi .bashrc

    然后添加如下语句

    export JAVA_HOME=/home/test/ jdk1.6.0_27

    export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:.

    然后. .bashrc使其生效

    ssh 的安装和配置

    $实现ssh无密码登陆

    $sudo apt-get install ssh

    $ssh-keygen 

    直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对

    出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
    $cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

    Hadoop 安装

    1.下载Hadoop

       http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/

    2.解压Hadoop

             tar xzvf hadoop-0.21.0.tar.gz

    3. 添加Hadoop Bin到环境变量中

    修改 hadoop-env.sh

    配置JDK即可

    export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

    conf/core-site.xml

    java代码:

    1. <configuration>      
    2.     <property>   
    3.           <name>fs.default.name</name>   
    4.           <value>hdfs://localhost:9000</value> 
    5.       </property>   
    6.       <property> 
    7.            <name>hadoop.tmp.dir</name> 
    8.            <value>/hadoop</value> 
    9.        </property> 
    10. </configuration>   

    conf/hdfs-site.xml

    java代码:

    1. <configuration>      
    2.    <property>   
    3.          <name>dfs.replication</name>   
    4.          <value>1</value>   
    5.     </property>   
    6. </configuration>   

    conf/mapred-site.xml

    java代码:

    1. <configuration>      
    2.      <property>   
    3.          <name>mapred.job.tracker</name>   
    4.          <value>localhost:9001</value>   
    5.     </property>   
    6. </configuration>   

    启动 Hadoop

    1.格式化文件系统

          hadoop namenode –format

    2. 启动hadoop

         启动关闭所有服务 start-all.sh/stop-all.sh

         启动关闭HDFS: start-dfs.sh/stop-dfs.sh

         启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh

    3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker

    第三部分:Hadoop UI 介绍

    Hadoop 重要的端口

    1.Job Tracker 管理界面:50030

    2.HDFS 管理界面 :50070

    3.HDFS通信端口:9000

    4.MapReduce通信端口:9001

    常用访问页面

    1. HDFS 界面

            http://hostname:50070

    2. MapReduce 管理界面

            http://hostname:50030

    第四部分:运行Word Count 示例

    相关步骤及命令

    1.先在本地磁盘上建立两个文件file1和file2

          $ echo ”Hello world Bye world" > >~/input/file1

          $ echo ”hello hadoop bye hadoop” > >~/input/file2

    2.在HDFS上建立一个input目录

           $ hadoop fs -mkdir /tmp/input

    3.将file1和file2拷贝到hdfs的input目录下

           $ hadoop fs -put input/* /tmp/input

    4.检查hdfs上有没有file1,file2

         $ hadoop fs -ls /tmp/input

    5.执行wordcount

       hadoop jar hadoop-examples-1.0.0.jar wordcount  /tmp/input  /tmp/output

    6.运行完成,查看结果

       hadoop fs -cat /output/part-r-00000

    第五部分:集成 Eclipse 开发环境

    通过 Eclipse 编写 Hadoop 程序

    1.导入hadoop-core.jar及hadoop/lib下所有Jar包

    2.加入Hadoop配置文件,包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred- site.xml,并修改相应参数。

    本节课程小结

    掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装 

    初次体验了Hadoop运行的WordCounter程序 

    了解了Hadoop UI

    掌握了Hadoop 集成到 Eclipse的情况

  • 相关阅读:
    Vue 使用Scss,深度修改局部样式
    Sublime Text 插件:批量删除空白行
    Sublime Text 3前端开发常用优秀插件介绍
    常用的sublime text 3插件(很爽哦)
    20 个强大的 Sublime Text 插件
    Java多线程之synchronized详解
    进阶Java多线程
    初识Java多线程
    分布式锁实现的正确打开方式
    分布式session实现方式
  • 原文地址:https://www.cnblogs.com/cmzcheng/p/3602294.html
Copyright © 2011-2022 走看看