zoukankan      html  css  js  c++  java
  • hadoop-WordCount程序

    1.在eclipse中运行,运行前配置(这一步可省略,因为我在开始给了路径)

    hdfs://192.168.1.104:9000/user/vlab/wcinput/*  hdfs://192.168.1.104:9000/user/vlab/wcoutput

    可以在改运行文件下,右击鼠标,选择 Run configurations配置

    2.WordCount代码

    package com.zhangdan.wordcount;
    
    import java.io.IOException;
    import java.util.StringTokenizer;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.Mapper;
    import org.apache.hadoop.mapreduce.Reducer;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
    
    public class WordCount {
        /**
         * 单词计数
         * 
         * @author vlab
         */
        /**
         * 序列化:将结构化对象转化为字节流以便在网络上传输或者写到磁盘进行永久存储 1.hadoop有自己的数据类型,java的类型不适用
         * 2.在hadoop中所有的key,value类型都需要实现writable接口,有两个方法分别进行读(反序列化)和写(序列化) 3.
         * 所有的key,都要实现comparable接口,Mapreduce过程需要对key/value进行反复的排序,
         * 默认情况下是对key进行排序,要实现compareTo()方法。所以通过key既要实现writablej接口又要实现comparable接口
         * hadoop提供了一个公共的接口WritableComparable接口
         * 4.由于需要序列化反序列化和基表,对java对象需要重写几种方法:equal(),hashCode(),toString()
         * 5.数据类型,必须有一个默认的无参的构造方法,为了方便反射,进行创建对象
         * 6.在自定义数据类型中,建议使用java原生数据类型,最好不要使用hadoop对原生数据类型封装好的数据类型。例如:String,Integer
         *
         */
    
        private static final String Input_Path = "hdfs://192.168.1.105:9000/user/vlab/wcinput/*";
        private static final String Output_Path = "hdfs://192.168.1.105:9000/user/vlab/wcoutput";
    
        public static class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable> {
            // Mapper<LongWritable, Text, Text,
            // IntWritable>:表示输入<key,value>,输出<key,value>类型
            private final IntWritable one = new IntWritable(1);
            private Text word = new Text();
    
            public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
                String line = value.toString();
                StringTokenizer token = new StringTokenizer(line);
                //System.out.println("lalala");
                while (token.hasMoreTokens()) { // hasMoreTokens方法:测试此 tokenizer
                                                // 的字符串中是否还有更多的可用标记。
                    /**
                     * set方法:Set to contain the contents of a string.
                     * nextToken方法:返回此 string tokenizer 的下一个标记。
                     */
                    word.set(token.nextToken());
                    context.write(word, one);// 返回的是单词及次数
                }
            }
        }
    
        public static class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
            public void reduce(Text key, Iterable<IntWritable> values, Context context)
                    throws IOException, InterruptedException {
                int sum = 0;
                for (IntWritable val : values) {
                    sum += val.get();
                    //System.out.println(key+" "+val);
                }
                context.write(key, new IntWritable(sum));
            }
        }
    
        public static void main(String[] args) throws Exception {
            Configuration conf = new Configuration();
            // 1.创建Job
            Job job = new Job(conf);
            // 2.设置Job运行的类
            job.setJarByClass(WordCount.class);
            // 3.设置job名称
            job.setJobName("wordcount");
            job.setOutputValueClass(IntWritable.class);
    
            // 设置Mapper和Reducer类
            job.setMapperClass(WordCountMap.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);
            // job.setCombinerClass(WordCountReduce.class);
            // 这一步要特别说明下,因为这里没需要combine过程,因此不需要这个过程
            job.setReducerClass(WordCountReduce.class);
    
            job.setInputFormatClass(TextInputFormat.class);
            job.setOutputFormatClass(TextOutputFormat.class);
    
            // 设置输入文件目录和输出文件目录
            FileInputFormat.addInputPath(job, new Path(Input_Path));
            FileOutputFormat.setOutputPath(job, new Path(Output_Path));
    
            // 提交运行作业,等待运行结果
            job.waitForCompletion(true);
        }
    
    }

    运行备注:首先eclipse中必须有权限对hdfs创建文件的权限才可以直接在eclipse中运行

    别人写的hadoop集群搭建过程:http://www.cnblogs.com/yhason/archive/2013/05/30/3108908.html,感觉写的好好

  • 相关阅读:
    经典论文(转载)
    sublime编辑器Ctrl+E快捷键无效解决方法(转)
    Angular CLI 安装和使用(转发)
    tf.repeat() tensorflow
    colab使用
    记stanford-corenlp的使用
    gesim_word2vec训练词向量
    jupyter中不能用tensorflow
    Distributed Representations of Words and Phrases and their Compositionality论文阅读及实战
    A Neural Probabilistic Language Model_论文阅读及代码复现pytorch版
  • 原文地址:https://www.cnblogs.com/xunyingFree/p/5065773.html
Copyright © 2011-2022 走看看