Hadoop基础 1. 大数据和Hadoop介绍

zoukankan html css js c++ java

Hadoop基础 1. 大数据和Hadoop介绍

大数据是什么，有什么特点？

大数据概念：海量的、高速增长率的、多样化的信息资产。

大数据特点(4V)：Volume大量、velocity高处理效率的、variety多样化的(机构/非结构/半结构)、低价值密度的。

Hadoop是什么，有什么优势？

狭义：Apache 基金会开发的分布式系统基础架构，主要是为了解决大数据的存储和分析计算的问题。

广义：Hadoop生态圈(数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层)

　　业务模型层：业务模型、业务应用、数据可视化。

　　任务调度层：Oozie任务调度、Azkaban任务调度。

　　数据计算层：基于磁盘计算的Map Reduce、基于内存计算的Spark Core、Spark Streaming实时计算、Storm实时计算、Mahout 数据挖掘、Spark Mlib数据挖掘、Spark R数据分析、Hive数仓数据查询、Spark Sql数据查询、Flink等

　　资源管理层：YARN资源管理

　　数据存储层：HDFS、HBase非关系型数据库、kafuka消息队列

　　数据传输层：Sqoop(HDFS和关系型数据库之间的数据传递)、Flume日志收集、Kafka消息队列

　　数据来源层：结构化(关系型数据库)、半结构化(日志文件)、非结构化(视频、音频、PPT)

　　还有Zookeeper 负责数据平台配置和调度。

优势(4高)：高可靠性、高扩展性、高效性、高容错性。

　　高可靠性：hadoop底层存储了多个数据副本，即使在发生某个计算元素错误或者存储错误时，也不会丢失数据。

　　高扩展性：在集群分配任务数据，可方便的扩展数以千计的节点。

　　高效性：在Map Reduce的思想下，hadopp的是并行工作的，可加快任务的处理速度。

　　高容错性：能够自动将失败的任务重新调度。

Hadoop 1.x和2.x区别（面点）？

在1.x版本中，Map Reduce及负责逻辑计算又负责资源调度(CPU/内存/磁盘分配)。

在2.x版本中，Hadoop生态圈中增加了YARN，负责资源调度，Map Reduce只负责逻辑计算，功能解耦。

查看全文

相关阅读:
1055. [HAOI2008]玩具取名【区间DP】
BZOJ2435:[NOI2011]道路修建 (差分)
1084. [SCOI2005]最大子矩阵【网格DP】
1060. [ZJOI2007]时态同步【树形DP】
1050. [HAOI2006]旅行【并查集+枚举】
2463. [中山市选2009]谁能赢呢？【博弈论】
luogu P1195 口袋的天空
 luogu P1162 填涂颜色
 luogu P1223 排队接水
 luogu P1331 海战

原文地址：https://www.cnblogs.com/zhoujie0710/p/15765701.html