zoukankan      html  css  js  c++  java
  • hadoop小结

    测试小结:
    1.如果只需要对数据集进行过滤,筛选则只需要编写Mapper类,不需要Reduce类,此时要执行下面一条语句:job.setNumReduceTesk(0);
    2.如果需要对处理的数据进行分组(group by)、排序(order by)、表连接(join)、排重(distinct)等操作则需要编写Reducer类,因为这些操作都是基于MapTask的输出键(Key)来完成的;
    3.如果既有分组又有排序只能使用两个MapReduce作业来串接完成,因为分组和排序会涉及到两次Shuffle过程;

    分组与排序的本质何在?
    分组是基于排序来完成,也就是说在分组之前其实上已经经过排序,从MapTask到ReduceTask的Shuffle的过程所使用的默认排序是升序,排序就是比较值的大小。

    数字类型:直接根据数值大小进行比较;
    字符串类型:根据字典序列(ASCII码值大小)进行比较;

     大数据学习交流群:217770236 让我我们一起学习大数据

    Combiner产生原因:

         每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。Combiner是继承自Reducer类。

    Combiner组件:

      1.是在每个 map task 的本地运行,能收到map输出的每一个key的valuelist,所以可以做局部汇总处理

      2.因为map task 的本地进行了局部汇总,就会让map端的输出数据大幅精简,减少shuffle过程的网络IO

      3.Combiner其实就是一个reduce组件,与reduce的区别在于:Combiner运行maptask的本地

      4.Combiner在使用时需要注意,输入输出KV数据类型要跟map和reduce的相应数据类型匹配(combiner的输入是map的输出;combiner的输出是reduce的输入)

      5.要注意业务逻辑不能因为Combiner的加入而受影响。

    那么在程序中的使用是:

    可以直接在Runner类中main方法中:

    在指定reduce类后,指定Combiner类即可:语句  wcjob.setCombinerClass(WordCountReducer.class);

                    因为Combiner实际就是reduce组件,所以可以使用之前指定的reduce即可。

       Job wcjob = Job.getInstance(conf); 所以wcjob是job的实现类。

    使用场景:即第五条中所述的情况;

    不能使用场景:在求取平均数时,因为添加的Combiner组件是与reduce组件具有相同的逻辑,会提前求一次平均值后传给reduce类,导致求取的平均值错误。

    使用卡宾类需要注意问题:
    1.combiner类与普通的Reducer类都一样,继承于Reducer类;
    2.combiner类的统计算法对于ReduceTask而言必须具有可拆解性,否则不能使用combiner;
    3.如果你的conbiner类的算法与Reduce的算法完全一致,则可直接编写的Reducer类作为combiner;

    Hadoop中的分布式缓存:基于磁盘IO进行迭代,消耗较大,但是磁盘存储数据的性价比更高;主要做离线数据处理;
    Spark是:基于内存进行迭代的,对于实时处理数据和处理稍微小点的数据更具有优势;主要做流式数据处理;
    当内存的容量能够达到很高并且购买内存花费也不高,即性价比和磁盘差距不大时,那么hadoop就将会面临被淘汰的危机。


    hadoop集群分区:

    1、分区是必须要经历Shuffle过程的,没有Shuffle过程无法完成分区操作
    2、分区是通过MapTask输出的key来完成的,默认的分区算法是数组求模法:

    数组求模法:
    将Map的输出Key调用hashcode()函数得到的哈希吗(hashcode),此哈希吗是一个数值类型,将此哈希码数值直接与整数的最大值(Integer.MAXVALUE)取按位与(&)操作,将与操作的结果与ReducerTask
    的数量取余数,将此余数作为当前Key落入的Reduce节点的索引;
    -------------------------
    Integer mod = (Key.hashCode()&Integer.MAXVALUE)%NumReduceTask;
    被除数=34567234
    NumReduceTask=3
    -------结果:
    0、1、2 这三个数作为Reduce节点的索引;
    数组求模法是有HashPartitioner类来实现的,也是MapReduce分区的默认算法。


    hadoop集群的性能和效率:
    1、数据量需要达到一定的数量级使用hadoop集群来处理才是划算的
    2、集群的计算性能取决于任务数量的多少,设置任务数量必须充分考虑到集群的计算能力(比如:物理节点数量);
      a、Map设置的任务数量作为最小值参考
      b、Reduce的任务数默认是1,如果设置了则启动设置的数量不管MapTask还是ReduceTask,

    不管MapTask还是ReduceTask,只要任务数量越多则并发能力越强,处理效率会在一定程度上越高;但是,设置设置的任务数量必须参考集群中的物理节点数量,如果设置的任务数量过多,会导致每个物理节点上分摊的任务数量过多,处理器并发每个任务产生的计算开销越大,任务之间因处理负载导致相互之间的影响很大,任务失败率上升,计算性能反而下降(因为任务失败会重新请求,至多重新请求三次),因此在设计MapTask与ReduceTask任务数量时必须权衡利弊,折中考虑...

  • 相关阅读:
    Oracle(二)常用操作语句
    Oracle(一)概念理解
    Spring MVC实现文件上传和下载
    Spring MVC 的执行流程
    Spring MVC原理及配置详解
    idea创建maven web项目
    Spring Bean的生命周期
    integer和int的区别
    web项目搜索框智能提示
    html-tab page
  • 原文地址:https://www.cnblogs.com/mmzs/p/8046380.html
Copyright © 2011-2022 走看看