zoukankan      html  css  js  c++  java
  • Hadoop 之 配置与运行 wordcount示例

    Hadoop 配置与运行 wordcount示例,也是个MapReduce示例

    前面Hadoop安装分两部份,一是虚机的安装与配置, 二是Hadoop集群安装与配置

    这里我们运行下hadoop 自带示例wordcount,当然在做这个示例前提是Hadoop已配置好,且已启动运行

    Wordcount(单词计数)是最简单最直观看到MapReduce思想,可以这么认为是MapReduce版”Hello World”

    单词计数主要功能是:统计一系列文本文件中每个单词出现的次数,比如 hello world,hello,统计结果就是hello 2,world 1

    具体我们看一下如下步骤:

    一、创建input目录

    [hadoop@kencentos01 bin]$ hdfs dfs -mkdir -p /usr/hadoop/wordcount/input

    这里是一次创建多级目录

    二、上传自定义的文件到input目录

    如创建文件 /usr/mydata/test1.txt,里面自行输入一些词组

    上传到hadoop目录中

    [hadoop@kencentos01 bin]$ hdfs dfs -put /usr/mydata/test1.txt /usr/hadoop/wordcount/input

    如果创建多个文件可以用通配符来表示

    Hdfs dfs –put /usr/mydata/test*.txt  /usr/hadoop/worcount/input

    三、运行示例

    [hadoop@kencentos01 hadoop-2.7.3]$

     bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /usr/hadoop/worcount/input  /usr/hadoop/worcount/output

     注: output文件夹为全新的,之前有的删除

    四、查看结果

    查看output 目录看结果,查看对应生成文件part-r-0000内容

    五、可能遇到的问题

    在这期间运行示例时,有可能遇到mapreduce job 一直在运行,不停止的情况

    因为正常运行不到1分钟结果就出来了,若出现这种情况一般,说明遇到问题了

    可以查看下对应的log, (hadoop安装目录下logs),比如 yarn 相关日志

    常见可能的问题原因有:

    1、hostname配置有误,即检查hosts文件中配置,注释掉无关的host行

    2、检查防火墙,开放所有hadoop用到的端口,若为了简单,可直接关掉防火墙

    3、检查节点是否正常运行,如slave机子上datanode

    4、hadoop用户权限不够

    5、应权限导致默认目录不可用,可自指定 input目录,便于发现问题

    6、yarn env中环境变量配置,尤其是java home路径配置 

    7、yarn -site.xml中配置有误,比如配置内存或虚拟机分配的内存过小

  • 相关阅读:
    JS第二天
    ES6
    Asp.net Core Web Mvc项目添加Jwt验证
    .Net Core 平台下创建WinForm窗体SignalR客户端
    .Net Core平台下实现SignalR客户端和服务端
    .Net Framework 平台下创建WinForm窗体SignalR客户端
    在.Net Framework平台下WPF实现SignalR客户端
    .Net Framework框架下实现SignalR客户端和服务端
    信息系统项目管理师10大管理47个过程域输入输出工具(项目人力资源管理)
    信息系统项目管理师10大管理47个过程域输入输出工具(项目质量管理)
  • 原文地址:https://www.cnblogs.com/kcen/p/7977127.html
Copyright © 2011-2022 走看看