zoukankan      html  css  js  c++  java
  • 假期学习——大数据的初步认识

    今天学习了大数据的一些基本的概念。

    什么是Hadoop:

     大数据主要还是解决海量数据的存储和海量数据的分析计算。

    大数据的特点:大量、高效、多样(结构化数据和非结构化数据)、低价值密度。

    Hadoop的三大发行版本:

    Apache、cloundera、hortonworks。

    当然现在cloundera收购了hortonworks(准确来说算是强强联合吧),Apache入门学习最好。

    Hadoop的优势:

    Hadoop有四个优势

    高可靠性、高扩展性、高效性、高容错性。

    Hadoop的组成:

    Hadoop1.x主要是MapReduce(负责计算和资源调度)这时还没有yarn、hdfs(数据存储)、common(辅助工具)。

    Hadoop2.x和Hadoop3.x在组成上没太大区别:MapReduce(计算)、yarn(资源调度)、hdfs(数据存储)、common(辅助工具)

    HDFS的概述:

    其中主要包括namenode(nn)、DataNode(dn)、secondary namanode(2nn)

    yarn概述:

    说明1:客户端可以有多个
    说明2:集群上可以运行多个ApplicationMaster
    说明3:每个NodeManager上可以有多个Container

     MapReduce将计算过程分为两个阶段,map和reduce阶段。

    (1)map阶段并行处理输入数据。

    (2)reduce阶段对map结果进行汇总。

     这就是今天初步学习的一些大数据知识。

    作者:哦心有
    本文版权归作者和博客园共有,欢迎转载,但必须给出原文链接,并保留此段声明,否则保留追究法律责任的权利。
  • 相关阅读:
    SQL Server 的事务和锁(一)
    Sql server脏读、更新丢失、不可重复读、幻象读问题及解决方案
    Sql server锁机制
    Windows系统变量列表
    windows运行命令大全
    C# 捕获数据库自定义异常
    sql日期函数
    C# ado.net 操作存储过程(二)
    C# ado.net 操作(一)
    url传参特殊字符问题(+、%、#等)
  • 原文地址:https://www.cnblogs.com/haobox/p/14988181.html
Copyright © 2011-2022 走看看