【Hadoop】Hadoop的安装，本地模式、伪分布模式的配置

zoukankan html css js c++ java

【Hadoop】Hadoop的安装，本地模式、伪分布模式的配置
Download hadoop-2.7.7.tar.gz

下载稳定版本的hadoop-2.7.7.tar.gz（我用的2.6.0，但是官网只能下载2.7.7的了）

Required Software

Linux所需的软件包括：

必须安装Java™。HadoopJavaVersions描述了推荐的Java版本。
必须安装ssh并且必须运行sshd才能使用管理远程Hadoop守护进程的Hadoop脚本。
安装jdk、ssh免密登录请看：
linux安装java 1.8
ssh免密登录

Prepare to Start the Hadoop Cluster

准备启动Hadoop集群
解压缩下载的Hadoop发行版。在分布式中，编辑文件etc / hadoop / hadoop-env.sh以定义一些参数，如下所示：

＃设置为Java安装的根目录
```
  export JAVA_HOME = / usr / java / java1.8.0_25
```
＃假设您的安装目录是/ usr / local / hadoop
```
export HADOOP_PREFIX = / usr / local / hadoop
```
请尝试以下命令：
```
  $ bin / hadoop
```
- Local (Standalone) Mode------本地（独立）模式
- Pseudo-Distributed Mode------伪分布式模式
- Fully-Distributed Mode----------全分布式模式
Standalone Operation 本地（独立）操作

默认情况下，Hadoop配置为以非分布式模式运行，作为单个Java进程。这对调试很有用。

以下示例复制解压缩的conf目录以用作输入，然后查找并显示给定正则表达式的每个匹配项。输出将写入给定的输出目录。
```
  $ mkdir input
  $ cp etc/hadoop/*.xml input
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
  $ cat output/*
```
Pseudo-Distributed Operation 伪分布式操作

Hadoop也可以在伪分布式模式下在单节点上运行，其中每个Hadoop守护程序在单独的Java进程中运行。

Configuration

Use the following:

先在解压的hadoop-2.6.0目录下创建data/tmp文件夹

etc/hadoop/core-site.xml:
```
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/programs/hadoop-2.6.0/data/tmp</value>
</property>
</configuration>
```
etc/hadoop/hdfs-site.xml:
```
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
```
Execution

以下说明是在本地运行MapReduce作业。如果要在YARN上执行作业，请参阅单节点上的YARN 。

1.格式化文件系统：
```
  $ bin / hdfs namenode -format
```
2.启动NameNode守护程序和DataNode守护程序：
```
  $ sbin / start-dfs.sh
```
hadoop守护程序日志输出将写入$ HADOOP_LOG_DIR目录（默认为$ HADOOP_HOME / logs）。

3.浏览NameNode的Web界面; 默认情况下，它可用于：
```
NameNode - http：// localhost：50070 /
```
4.创建执行MapReduce作业所需的HDFS目录：
```
  $ bin / hdfs dfs -mkdir / user
  $ bin / hdfs dfs -mkdir / user / username
```
5.将输入文件复制到分布式文件系统中：
```
 $ bin/hdfs dfs -put etc/hadoop input
```
6.运行一些提供的示例：
```
  $ bin / hadoop jar share / hadoop / mapreduce / hadoop-mapreduce-examples-2.6.0.jar grep input output'dfs [az。] +'
```
7.检查输出文件：
将输出文件从分布式文件系统复制到本地文件系统并检查它们：
```
 $ bin/hdfs dfs -get output output
  $ cat output/*
```
要么

查看分布式文件系统上的输出文件：
```
   $ bin/hdfs dfs -cat output/*
```
8.完成后，停止守护进程：
```
  $ sbin / stop-dfs.sh
```
单节点上的YARN

您可以通过设置一些参数并运行ResourceManager守护程序和NodeManager守护程序，以伪分布式模式在YARN上运行MapReduce作业。

以下说明假设已执行上述指令的 1.~4步骤。

1.配置参数如下：
etc/ hadoop/ mapred-site.xml中：
```
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
```
etc/hadoop/yarn-site.xml中：
```
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
```
2.启动ResourceManager守护程序和NodeManager守护程序：
```
 $ sbin / start-yarn.sh
```
3.浏览ResourceManager的Web界面; 默认情况下，它可用于：
```
ResourceManager - http：// localhost：8088 /
```
运行MapReduce作业。
4.完成后，停止守护进程：
```
  $ sbin / stop-yarn.sh
```
Fully-Distributed Operation

请看下篇>>>全分布式模式配置
查看全文

相关阅读:
理解MySQL——索引与优化
 Android中shape的使用
 Android之Camera控制拍照
 android的fragments管理
 android的fragment基本介绍
 android的animator
android软键盘弹出隐藏的监听
 android平板Home键的监听
 android jsonarray
android 应用静默自启动的解决方法

原文地址：https://www.cnblogs.com/BIG-BOSS-ZC/p/11807328.html

【Hadoop】Hadoop的安装，本地模式、伪分布模式的配置

Download hadoop-2.7.7.tar.gz

Required Software

Prepare to Start the Hadoop Cluster

Standalone Operation 本地（独立）操作

Pseudo-Distributed Operation 伪分布式操作

Configuration

Execution

单节点上的YARN

Fully-Distributed Operation