zoukankan      html  css  js  c++  java
  • 12-mapReduce的简介和yarn搭建

     Hadoop的核心组件之er: mapreduce

    目前的计算框架
    mapreduce
    spark
    storm
    flink(阿里)

    mapreduce的核心理念: 

    移动计算, 而不是移动数据(reducetask中仍然有移动数据的情况)

    分而治之

    split: 切分hadoop上传的block

    map: 对split后的结果进行分组

    shaffer: 对map后的键值对进行排序, 分组, 合并, (根据键)x

     

     shuffle过程详解: 

    3、    Shuffle
    a)    分区(partition,HashPartition:根据key的hashcode值 和 Reduce的数量 模运算),可以自定义分区,运算速度要快。一定要解决数据倾斜和reduce的负载均衡。
    b)    排序:默认按照字典排序。WriterCompartor(比较)
    c)    合并:减少当前mapper输出数据,根据key相同(比较),把 value 进行合并。
    d)    分组(key相同(比较),value组成一个集合)(merge)

    reduce: 对结果进行计算, 输出

    执行过程并不是非常严格, 就是切分后可能不会等切分完成, 就开始map的过程了

     yarn安装

    hadoop2.x以后, 计算框架放在在yarn上 

    1, yarn-site.xml

     <property>
       <name>yarn.resourcemanager.ha.enabled</name>
       <value>true</value>
     </property>
     <property>
       <name>yarn.resourcemanager.cluster-id</name>
       <value>yarncluster</value>
     </property>
     <property>
       <name>yarn.resourcemanager.ha.rm-ids</name>
       <value>rm1,rm2</value>
     </property>
     <property>
       <name>yarn.resourcemanager.hostname.rm1</name>
       <value>192.168.208.106</value>
     </property>
     <property>
       <name>yarn.resourcemanager.hostname.rm2</name>
       <value>192.168.208.107</value>
     </property>
     <property>
       <name>yarn.resourcemanager.zk-address</name>
       <value>192.168.208.106:2181,192.168.208.107:2181,192.168.208.108:2181</value>
     </property>

    2, mapred-stie.xml, 把mapreduce的环境放在yarn中

        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>

    3, yarn-site.xml, 制定mapreduce运行在哪个框架上

        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>

    NodeManager 和 Datanode在一块, 不需要配置, 自动分辨并启动

    4, 启动, 在NN上启动

    start-yarn.sh

    5, 手动启动备用ResourceManger

    yarn-daemon.sh start resourcemanager

    6, 访问

    wenbronk.hdfs.com:8088/cluster

    打开standby, 会立马重定向到active

    全部启动执行

    start-all.sh
  • 相关阅读:
    写了一个数据库的连继ID号(格式:xxxx000001)
    热心的网友<寒羽枫>帮忙解决水晶报表打印纸张问题
    解决vs2005自带水晶报表次数的限制的次数
    WebWork教程 Interceptor(拦截器)
    由于最近网站内容需要更新的还是满多的,于是想开发一个采集系统。收集了一下资料。
    ASP.NET AJAX 1.0 Beta 2 发布
    水晶报表的显示与打印不一至问题
    去年治疗过敏性鼻炎所用的药。
    正则表达式快速入门教程
    sql复制一条相同的记录最快最好的办法。
  • 原文地址:https://www.cnblogs.com/wenbronk/p/6659481.html
Copyright © 2011-2022 走看看