zoukankan      html  css  js  c++  java
  • 【转】MapReduce读取lzo文件

    1.读lzo文件

    需要添加以下代码,并导入lzo相关的jar包
     job.setInputFormatClass(LzoTextInputFormat.class);


    2.写lzo文件

    lzo格式默认是不支持splitable的,需要为其添加索引文件,才能支持多个map并行对lzo文件进行处理


    如果希望reduce输出的是lzo格式的文件,添加下面的语句
            FileOutputFormat.setCompressOutput(job, true);
            FileOutputFormat.setOutputCompressorClass(job, LzopCodec.class);
            int result = job.waitForCompletion(true) ? 0 : 1;
            //上面的语句执行完成后,会生成最后的输出文件,需要在此基础上添加lzo的索引
            LzoIndexer lzoIndexer = new LzoIndexer(conf);
            lzoIndexer.index(new Path(args[1]));


    如果已经存在lzo文件,但没有添加索引,可以采用下面的方法,在输入路径的文件上上添加lzo索引

    hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.17.jar com.hadoop.compression.lzo.LzoIndexer hdf://inputpath

    或者 

    hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.17.jar  com.hadoop.compression.lzo.DistributedLzoIndexe hdf://inputpath

    【转自】http://blog.csdn.net/wisgood/article/details/17080361

  • 相关阅读:
    操作系统
    Typora
    C++
    linux sftp 和scp 运用
    python GIL锁与多cpu
    django model 高级进阶
    django template 模板
    django view 视图控制之数据返回的视图函数
    django 创建管理员用户
    jango 模型管理数据model入门
  • 原文地址:https://www.cnblogs.com/zhzhang/p/5000084.html
Copyright © 2011-2022 走看看