zoukankan      html  css  js  c++  java
  • mapreduce的输入格式 --- InputFormat

    InputFormat 接口决定了mapreduce如何切分输入文件。

    InputFormat 由getspilit和createRecordReader组成,getspilit主要是标记分片的初始位置和大小,获取inputSplit,createRecordReader配合getspilit的信息生成一个RecordReader,用来从inputSplit中读取数据。

    NLineInputFormat:

    默认情况下在对输入文件进行拆分时,会按block块的大小分成多个InputSplit,InputSplit的数量取决于block的大小。每

    个map进程处理一个InputSplit,InputSplit中有多少行记录就会调用多少次map函数。

    如果使用NlineInputFormat,代表每个map进程处理的InputSplit不再按block块去划分,而是按NlineInputFormat指定的

    行数N来划分。即,每个InputSplit中只有N行记录数。同样InputSplit中有多少行记录就会调用多少次map函数。

    mapreduce结构:client客户端、JobTracker、TaskTracker、Task分为MapTask和ReduceTask、Reduce Slot和Map Slot

  • 相关阅读:
    煲鸡汤流程
    面向对象
    程序员英语学习思维导图
    百度通配符学习
    面向对象
    IO学习
    理解java的三大特性之继承
    重载(overload)、覆盖(override)、隐藏(hide)的区别
    2018年值得关注的10大JavaScript动画库
    小知识点总结
  • 原文地址:https://www.cnblogs.com/3chi/p/7365285.html
Copyright © 2011-2022 走看看