zoukankan html css js c++ java

hadoop之输入输出格式

<STRONG>jobConf.setInputFormat(MyInputFormat. class ); 
InputFormat：</STRONG> 
TextInputFormat：用于读取纯文本文件，文件被分为一系列以LF或CR结束的行，key是每一行的偏移量(LongWritable)，value是每一行的内容(Text)。 
KeyValueTextInputFormat：用于读取文件，如果行被分隔符分割为两部分，第一部分为key，剩下的为value；若没有分隔符，整行作为key，value为空。 
SequenceFileInputFormat：用于读取SequenceFile，读取格式要与写出SequenceFileOutputFormat时设置的setOutputKeyClass与setOutputValueClass一致（key+value的格式）。 
SequenceFileInputFilter：根据filter从SequenceFile中取得满足条件的数据，通过setFilterClass指定Filter，内置了三种Filter，RegexFilter取key值满足指定的正则表达式的记录；PercentFilter通过指定参数f，取记录行数f%==0的记录；MD5Filter通过指定参数f，取MD5(key)%f==0的记录。 
例子：conf.setInputFormat(KeyValueTextInputFormat.class); 
 
 


<STRONG>jobConf.setOutputFormat(MyOutputFormat. class );  
setOutputFormat：</STRONG> 
TextOutputFormat：输出到纯文本文件，格式为key + “    ”+ value。 
NullOutputFormat：hadoop中的/dev/null，将输出送进黑洞。 
SequenceFileOutputFormat，输出SequenceFile文件，其具体格式与setOutputKeyClass，setOutputValueClass相关 ，如此SequenceFileInputFormat的读取格式应该与SequenceFileOutputFormat的输出格式一致（key+value的格式） 
MultipleSequenceFileOutputFormat, MultipleTextOutputFormat：根据key将记录输出到不同的文件，可以被重写  
DBInputFormat和DBOutputFormat，从DB读取，输出到DB。 
例子：conf.setOutputFormat(TextOutputFormat.class);


（转载）
InputSplit决定了每个Mapper要处理的数据集； 
而InputFormat则决定了每一个Split里面的数据格式/数据结构；详见（http://book.douban.com/annotation/17068812/）

查看全文

相关阅读:
sql分页（收藏）
检索 COM 类工厂中 CLSID 为 {000209FF00000000C00000000, 80070005, 8000401a, asp.net生成word服务器部署, DCOM, asp.net 导出word格式的数据
 根据模板生成word文档《转》
自动执行SQL脚本<codesmith>
C#操作Word模板文件《收藏》
Jquery表单验证插件《转》
关闭文档时总是提示Normal.dot文件被占用《转》
RepeaterItem
NET Repeater控件使用
 文件的上传下载《转》

原文地址：https://www.cnblogs.com/xuepei/p/3613027.html