基于Eclipse搭建hadoop开发环境

zoukankan html css js c++ java

基于Eclipse搭建hadoop开发环境
一、基础环境准备

1、Eclipse 下载地址：http://pan.baidu.com/s/1slArxAP

2、JDK1.8 下载地址：http://pan.baidu.com/s/1i5iNyTZ

二、win10下hadoop开发环境搭建

1、下载hadoop插件：hadoop-eclipse-plugin-2.7.3.jar，插件放在eclipsedropins目录下。

hadoop-eclipse-plugin-2.7.3.jar 百度云盘下载地址： http://pan.baidu.com/s/1i585KTv

hadoop-eclipse-plugin-2.7.3.jar CSDN下载地址：http://download.csdn.net/detail/chongxin1/9859371

关闭，并重新启动Eclipse。

2、在windows解压hadoop-2.7.3.tar.gz

hadoop-2.7.3.tar.gz 百度云盘下载地址：http://pan.baidu.com/s/1o8c77PS

3、配置Hadoop Map/Reduce

4、点击show view -> other… ，在mapreduce tools下选择Map/ReduceLocations

在eclipse右下侧，点击蓝色大象：

添加一个新的HadoopLocation，并配置：

locationname：随意写

Map/Reduce Master ：

host：192.168.168.200 【装hadoop的linux系统的IP地址】

port：9001（core-site.xml）

DFS Master ：

Use M/R Master host:（打勾：单机模式）

User name：windows系统得默认用户

Port:9000 （mapred-site.xml）

这里的Host和Port在Ubuntu中搭建Hadoop环境时已经设置了。在core-site.xml和mapred-site.xml中查看。

5、查看是否连接成功

至此win10下hadoop开发环境搭建完成。

三、运行新建WordCount 项目并运行

1.右击New->Map/Reduce Project

2.在hdfs输入目录创建需要统计的文本

1）没有输入输出目录卡，先在hdfs上建个文件夹

bin/hadoop dfs -mkdir -p hdfs://192.168.168.200:9000/input

bin/hadoop dfs -mkdir -p hdfs://192.168.168.200:9000/output

2）.把要统计的文本上传到hdfs的输入目录下

bin/hadoop fs -put words.txt /input

words.txt内容为：

HelloHadoop

HelloBigData

HelloSpark

HelloFlume

HelloKafka

3.新建WordCount.java

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

* 第一个MapReduce程序

*

* @author sunchen

*

*/

public class WordCount {

    public static class TokenizerMapper extends

            Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        public void map(Object key, Text value, Context context)

                throws IOException, InterruptedException {

            StringTokenizer itr = new StringTokenizer(value.toString());

            while (itr.hasMoreTokens()) {

                word.set(itr.nextToken());

                context.write(word, one);

            }

        }

    }

    public static class IntSumReducer extends

            Reducer<Text, IntWritable, Text, IntWritable> {

        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,

                Context context) throws IOException, InterruptedException {

            int sum = 0;

            for (IntWritable val : values) {

                sum += val.get();

            }

            result.set(sum);

            context.write(key, result);

        }

    }

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf, "word count");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(TokenizerMapper.class);

        job.setCombinerClass(IntSumReducer.class);

        job.setReducerClass(IntSumReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        job.setInputFormatClass(NLineInputFormat.class);

        // 输入文件路径

        FileInputFormat.addInputPath(job, new Path(

                "hdfs://192.168.168.200:9000/input/words.txt"));

        // 输出文件路径

        FileOutputFormat.setOutputPath(job, new Path(

                "hdfs://192.168.168.200:9000/output/wordcount"));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

4、配置JDK1.8

因为Hadoop-eclipse-plugin-2.7.3.jar是使用JDK1.8编译的，如果不使用JDK1.8，则会出现以下报错：

Java.lang.UnsupportedClassVersionError: WordCount : Unsupported major.minor version 52.0

原因：JDK版本太低，一定要换成JDK1.8。

5、在项目的src下面新建file名为log4j.properties的文件

在项目的src下面新建file名为log4j.properties的文件，内容为：

### 设置日志级别及日志存储器 ###

#log4j.rootLogger=DEBUG, Console

### 设置日志级别及日志存储器 ###

log4j.rootLogger=info,consolePrint,errorFile,logFile

#log4j.rootLogger=DEBUG,consolePrint,errorFile,logFile,Console

###  输出到控制台 ###

log4j.appender.consolePrint.Encoding = UTF-8

log4j.appender.consolePrint = org.apache.log4j.ConsoleAppender

log4j.appender.consolePrint.Target = System.out

log4j.appender.consolePrint.layout = org.apache.log4j.PatternLayout

log4j.appender.consolePrint.layout.ConversionPattern=%d %p [%c] - %m%n

### 输出到日志文件 ###

log4j.appender.logFile.Encoding = UTF-8

log4j.appender.logFile = org.apache.log4j.DailyRollingFileAppender

log4j.appender.logFile.File = D:/RUN_Data/log/dajiangtai_ok.log

log4j.appender.logFile.Append = true

log4j.appender.logFile.Threshold = info

log4j.appender.logFile.layout = org.apache.log4j.PatternLayout

log4j.appender.logFile.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm:ss}  [ %t:%r ] - [ %p ]  %m%n

### 保存异常信息到单独文件 ###

log4j.appender.errorFile.Encoding = UTF-8

log4j.appender.errorFile = org.apache.log4j.DailyRollingFileAppender

log4j.appender.errorFile.File = D:/RUN_Data/log/dajiangtai_error.log

log4j.appender.errorFile.Append = true

log4j.appender.errorFile.Threshold = ERROR

log4j.appender.errorFile.layout = org.apache.log4j.PatternLayout

log4j.appender.errorFile.layout.ConversionPattern =%-d{yyyy-MM-dd HH:mm:ss}  [ %t:%r ] - [ %p ]  %m%n



#Console

log4j.appender.Console=org.apache.log4j.ConsoleAppender

log4j.appender.Console.layout=org.apache.log4j.PatternLayout

log4j.appender.Console.layout.ConversionPattern=%d [%t] %-5p [%c] - %m%n



log4j.logger.java.sql.ResultSet=INFO

log4j.logger.org.apache=INFO

log4j.logger.java.sql.Connection=DEBUG

log4j.logger.java.sql.Statement=DEBUG

log4j.logger.java.sql.PreparedStatement=DEBUG

#log4j.logger.com.dajiangtai.dao=DEBUG,TRACE

log4j.logger.com.dajiangtai.dao.IFollowDao=DEBUG

如图：

没有log4j.properties日志打不出来，会报警告信息：

log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).

log4j:WARN Please initialize the log4j system properly.

log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

6、配置hadoop环境变量

添加环境变量HADOOP_HOME=D:hadoop-2.7.3
追加环境变量path内容：%HADOOP_HOME%/bin

如果没有生效，重启eclipse；如果还是没有生效，重启电脑。

如果没配置hadoop环境变量，则会出现以下报错：

Could not locate executable nullinwinutils.exe in the Hadoop binaries.

2017-07-08 15:53:03,783 ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary path

java.io.IOException: Could not locate executable nullinwinutils.exe in the Hadoop binaries.

at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:379)

at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:394)

at org.apache.hadoop.util.Shell.<clinit>(Shell.java:387)

at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:80)

at org.apache.hadoop.security.SecurityUtil.getAuthenticationMethod(SecurityUtil.java:610)

at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:273)

at org.apache.hadoop.security.UserGroupInformation.ensureInitialized(UserGroupInformation.java:261)

at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:791)

at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:761)

at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:634)

at org.apache.hadoop.mapreduce.task.JobContextImpl.<init>(JobContextImpl.java:72)

at org.apache.hadoop.mapreduce.Job.<init>(Job.java:142)

at org.apache.hadoop.mapreduce.Job.getInstance(Job.java:185)

at org.apache.hadoop.mapreduce.Job.getInstance(Job.java:204)

at WordCount.main(WordCount.java:56)

跟代码就去发现是HADOOP_HOME的问题。如果HADOOP_HOME为空，必然fullExeName为nullinwinutils.exe。解决方法很简单，配置环境变量吧。

7、下载winutils.exe,hadoop.dll拷贝到%HADOOP_HOME%in目录

winutils.exe , hadoop.dll github下载地址：https://github.com/SweetInk/hadoop-common-2.7.1-bin

winutils.exe , hadoop.dll 百度云盘下载地址：https://pan.baidu.com/s/1jI3KdX8#list/path=%2F

拷贝winutils.exe , hadoop.dll到%HADOOP_HOME%in目录

少了winutils.exe会报以下错误：

java.io.IOException: Could not locate executable D:hadoop-2.7.3inwinutils.exe in the Hadoop binaries.

2017-07-08 16:17:13,272 ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary path

java.io.IOException: Could not locate executable D:hadoop-2.7.3inwinutils.exe in the Hadoop binaries.

at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:379)

at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:394)

at org.apache.hadoop.util.Shell.<clinit>(Shell.java:387)

at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:80)

at org.apache.hadoop.security.SecurityUtil.getAuthenticationMethod(SecurityUtil.java:610)

at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:273)

at org.apache.hadoop.security.UserGroupInformation.ensureInitialized(UserGroupInformation.java:261)

at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:791)

at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:761)

at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:634)

at org.apache.hadoop.mapreduce.task.JobContextImpl.<init>(JobContextImpl.java:72)

at org.apache.hadoop.mapreduce.Job.<init>(Job.java:142)

at org.apache.hadoop.mapreduce.Job.getInstance(Job.java:185)

at org.apache.hadoop.mapreduce.Job.getInstance(Job.java:204)

at WordCount.main(WordCount.java:56)

少了hadoop.dll会报以下错误：

2017-07-08 16:34:27,170 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

8、点击WordCount.java右击-->Run As-->Run on Hadoop

运行结果：

单词统计结果如下：

至此搭建完毕，666！
查看全文

相关阅读:
SQL命令优化
 C# 实现快捷键几种方法
 实现把dgv里的数据完整的复制到一张内存表
 DataGridView上下方向键定位
 《大型网站技术架构：核心原理与案例分析》-- 读书笔记 (2) ：大型网站核心架构要素（2） -- 可用性
 《大型网站技术架构：核心原理与案例分析》-- 读书笔记 (2) ：大型网站核心架构要素（1） -- 性能
 Solr6.7 学习笔记(01) -- 目录结构
 《大型网站技术架构：核心原理与案例分析》-- 读书笔记 (1)：大型网站发展历程
 浅淡Java多线程
 java 多线程学习笔记（二） -- IO密集型任务

原文地址：https://www.cnblogs.com/yangcx666/p/8723912.html

基于Eclipse搭建hadoop开发环境

一、基础环境准备

二、win10下hadoop开发环境搭建

1、下载hadoop插件：hadoop-eclipse-plugin-2.7.3.jar，插件放在eclipsedropins目录下。

2、在windows解压hadoop-2.7.3.tar.gz

3、配置Hadoop Map/Reduce

4、点击show view -> other… ，在mapreduce tools下选择Map/ReduceLocations

5、查看是否连接成功

三、运行新建WordCount 项目并运行

1.右击New->Map/Reduce Project

2.在hdfs输入目录创建需要统计的文本

3.新建WordCount.java

4、配置JDK1.8

5、在项目的src下面新建file名为log4j.properties的文件

6、配置hadoop环境变量

7、下载winutils.exe,hadoop.dll拷贝到%HADOOP_HOME%in目录

8、点击WordCount.java右击-->Run As-->Run on Hadoop

7、下载winutils.exe,hadoop.dll拷贝到%HADOOP_HOME%in目录