mapreduce 读写lzo文件 - 走看看

zoukankan html css js c++ java

mapreduce 读写lzo文件

1.读lzo文件

需要添加以下代码，并导入lzo相关的jar包
job.setInputFormatClass(LzoTextInputFormat.class);

2.写lzo文件

lzo格式默认是不支持splitable的，需要为其添加索引文件，才能支持多个map并行对lzo文件进行处理

如果希望reduce输出的是lzo格式的文件，添加下面的语句
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, LzopCodec.class);
int result = job.waitForCompletion(true) ? 0 : 1;
//上面的语句执行完成后，会生成最后的输出文件，需要在此基础上添加lzo的索引
LzoIndexer lzoIndexer = new LzoIndexer(conf);
lzoIndexer.index(new Path(args[1]));

如果已经存在lzo文件，但没有添加索引，可以采用下面的方法，在输入路径的文件上上添加lzo索引
hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.17.jar com.hadoop.compression.lzo.LzoIndexer hdf://inputpath

查看全文

相关阅读:
Python并行编程(十三)：进程池和mpi4py模块
 Python 列表集合字典推导式、生成器表达式
 Python 迭代对象、迭代器
 Python 参数，嵌套函数的变量使用
 Python 编码进阶
 Python 深浅Copy
Python 代码块、缓存机制
 Python 列表，字典相关方法
 初识 python 字符串相关函数
 初识编码格式

原文地址：https://www.cnblogs.com/fuhaots2009/p/3455268.html

Copyright © 2011-2022 走看看