zoukankan      html  css  js  c++  java
  • Hadoop MapReduce常用输入输出格式

    这里介绍MapReduce常用的几种输入输出格式。

    • 三种常用的输入格式:TextInputFormat , SequenceFileInputFormat , KeyValueInputFormat .

       1) TextInputFormat 为默认格式。不特地指明 MapReduce 的输入格式时,默认使用 TextInputFormat 的输入格式。它读取文件的行。 

        “ 键” (LongWritable)为行的字节偏移量(即所在行的字符个数),“值” (Text)为行的内容。

      2) SequenceFileInputFormat 为Hadoop定义的高性能二进制格式。因此当有多个MapReduce任务在顺序执行时,使用SequenceFileInputFormat 的输入格式可以提高Mapper对其的读取速度。

         3)KeyValueInputFormat 将文件的行解析为键值对,它的“键”为第一个tab字符前的所有字符(Text);“值”为 行剩下的内容(Text)。

    • 两种常用的输出格式:TextOutputFormat , SequenceFileOutputFormat .

      1) TextOutputFormat 为默认的输出格式,以“key value”的方式输出行。

      2) SequenceFileOutputFormat 输出的是二进制文件,该二进制文件可以作为子MapReduce作业的输入。

    注( ¯(∞)¯ ):钠离子是第一次写博文,希望来记录自己所学。是小菜鸟一只。如有错误,请帮忙指出~谢谢~以后有更多的理解会再添加上去的!

  • 相关阅读:
    Html禁止粘贴 复制 剪切
    表单标签
    自构BeanHandler(用BeansUtils)
    spring配置中引入properties
    How Subcontracting Cockpit ME2ON creates SD delivery?
    cascadia code一款很好看的微软字体
    How condition value calculated in sap
    Code in SAP query
    SO Pricing not updated for partial billing items
    Javascript learning
  • 原文地址:https://www.cnblogs.com/dream-nalizi/p/7430065.html
Copyright © 2011-2022 走看看