zoukankan      html  css  js  c++  java
  • Hadoop特点

    一:HDFS

    1.HDFS上传数据,会将文件切分成指定大小的数据块,并以多副本的数据块存储在机器上.

    2.

    part0是指  副本有2个而且1,2有两个副本

    二.YARN

    1.负责整个集群的管理和调度

    YARN的特点

     扩展性,容错性,多框架资源统一调度,支持多种不同的框架同时运行

     三.mapReduce

    特点:扩展性,容错性,海量数据的离线处理

    wordcount单词统计操作

    先输入-在分割-在map看在一个块中出现了几次-shuffing洗牌在将相同的数据放在一起-Reducing统计-最后统计

    四:hadoop优势

    1.可以横向扩展,进行计算

    2.存储在廉价的机器上面降低成本

    3.成熟的生态圈

    五:

    1.hadoop生态系统开源社区活跃

    2.囊括了大数据体系的方方面面

    3.成熟的生态圈

    六:

    hadoop选型

    apache hadoop(不推荐,依赖和冲突太多) 

    CDH(推荐,安装方便,cdh如果版本相同的话基本没有冲突,cm(安装集群的框架不开源)):

    HDP(国内的话不经常用但是比apache用的多缺点(安装和升级比较费劲))

    七:

    hadoop的使用案例

    案例一:hadoop之消费大数据(电商用例) 

     根据历时用例来预测用户的消费情况

    案例二:零售大数据'

  • 相关阅读:
    MongoDB 聚合函数及排序
    MongoDB 关系运算符及统计个数及跳过分页
    MongoDB 正则表达式查询
    MongoDB 范围查询
    MongoDB 逻辑运算符
    MongoDB数据库
    python 判断文件夹存在,不存在创建文件夹
    MySQL 数据库操作
    MySQL 数据库连接命令
    PyCharm Django 显示一个简单页面
  • 原文地址:https://www.cnblogs.com/chenligeng/p/9313752.html
Copyright © 2011-2022 走看看