zoukankan      html  css  js  c++  java
  • hadoop大事件

    大事件:

     Hadoop新一代(2.x)计算平台YARN

      一代hadoop存在的问题:

        1.Jobtracker单点,容易导致崩溃,节点较多时造成性能瓶颈

        2.作业分配基于槽位(slot),分配粒度太粗

        3.Jobtracker和Tasktracker多次来回斱能启动作业,导致小作业不能及时完成

               4.计算框架单一,Map-Reduce擅长日志分析,但即有大量的机器学习算法需要反复循环迭代,还有像图计算,可能涉及数据不多,但即要在内存产生大量中间数据和超大计算量,这些都不适合使用M-R框架,但Hadoop 1.x即无法支持流式数据库,基于内存的计算这些框架

           新一代(2.x)引入平台YARN

               1. Yet Another Resource Negotiator

      

               2. Hadoop 0.23开始引入

               3.  学习Mesos

               4. 弹性平台,可以同时支持Map-Reduce,Storm(流式数据处理,是先算后存,而mapreduece是先存后算即离线处理)Spark(基于内存),MPI(Message Passing Interface,是一个并行函数库标准,是应用程序对消息传递的需求,MPICH2是MPI的开源实现)等多种流行计算模型


     新一代快速计算平台Spark及其生态圈


     Mahout告别Map-Reduce

    2014.4.25 告别了mapreduce,走向了spark
     阿里巳巳抛弃于梯(Hadoop集群)

  • 相关阅读:
    模型性能评估
    特征提取(机器学习数据预处理)
    决策树(DecisionTree)(附源码)
    支持向量机(SVM)
    Python机器学习/LogisticRegression(逻辑回归模型)(附源码)
    机器学习大致流程
    机器学习的数据预处理
    tensorflow的断点续训
    tensorboard可视化详细
    Linux启动tomcat
  • 原文地址:https://www.cnblogs.com/mlj5288/p/4440855.html
Copyright © 2011-2022 走看看