zoukankan      html  css  js  c++  java
  • Hadoop基础 1. 大数据和Hadoop介绍

    大数据是什么,有什么特点?

    大数据概念:海量的、高速增长率的、多样化的信息资产。

    大数据特点(4V):Volume大量、velocity高处理效率的、variety多样化的(机构/非结构/半结构)、低价值密度的。

    Hadoop是什么,有什么优势?

    狭义:Apache 基金会开发的分布式系统基础架构,主要是为了解决大数据的存储分析计算的问题。

    广义:Hadoop生态圈(数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层)

      业务模型层:业务模型、业务应用、数据可视化。

      任务调度层:Oozie任务调度、Azkaban任务调度。

      数据计算层:基于磁盘计算的Map Reduce、基于内存计算的Spark Core、Spark Streaming实时计算、Storm实时计算、Mahout 数据挖掘、Spark Mlib数据挖掘、Spark R数据分析、Hive数仓数据查询、Spark Sql数据查询、Flink等

      资源管理层:YARN资源管理

      数据存储层:HDFS、HBase非关系型数据库、kafuka消息队列

      数据传输层:Sqoop(HDFS和关系型数据库之间的数据传递)、Flume日志收集、Kafka消息队列

      数据来源层:结构化(关系型数据库)、半结构化(日志文件)、非结构化(视频、音频、PPT)

      还有Zookeeper 负责数据平台配置和调度。

    优势(4高):高可靠性、高扩展性、高效性、高容错性。

      高可靠性:hadoop底层存储了多个数据副本,即使在发生某个计算元素错误或者存储错误时,也不会丢失数据。

      高扩展性:在集群分配任务数据,可方便的扩展数以千计的节点。

      高效性:在Map Reduce的思想下,hadopp的是并行工作的,可加快任务的处理速度。

      高容错性:能够自动将失败的任务重新调度。

    Hadoop 1.x和2.x区别(面点)?

    在1.x版本中,Map Reduce及负责逻辑计算又负责资源调度(CPU/内存/磁盘分配)。

    在2.x版本中,Hadoop生态圈中增加了YARN,负责资源调度,Map Reduce只负责逻辑计算,功能解耦。

  • 相关阅读:
    51Nod 1119 机器人走方格 V2 组合数学 费马小定理
    Codeforces Round #439 div2 869A The Artful Expedient +869B The Eternal Immortality
    51Nod 1050 循环数组最大子段和 dp
    51Nod 1009 数字1的数量 数位dp
    51Nod 1082 与7无关的数 暴力打表(埃氏筛的感觉)
    POJ 2001 Shortest Prefixes
    字典树模板
    HDU 1251 统计难题
    kmp算法模板
    HDU 2087 剪花布条
  • 原文地址:https://www.cnblogs.com/zhoujie0710/p/15765701.html
Copyright © 2011-2022 走看看