zoukankan      html  css  js  c++  java
  • Hadoop学习笔记(一)

    Hadoop初识

    Hadoop特性

    apache旗下顶级开源项目之一

    主要用于解决海量数据下的 存储分析

    主要优势有:

    1. 高可靠性
    2. 高扩展性
    3. 高效性
    4. 高容错性

    其中MapReduce和HDFS(Hadoop Distribute File System)是Hadoop核心

    MapReduce的核心是 对数据的排序优化

    Hadoop版本

    Hadoop经典版本
    0.20.2(hadoop开始广泛关注的版本)
    1.0.0(1.0系列开始)
    1.0.3 1.0.4(实际生产主要应用的版本)

    Haddop跨院版本
    0.23.0(跨越版本,YARN框架,Hadoop2的基础版本)
    主要区别在于没有HDFS的HA和Federation特性
    2.x版本(将1.x系列版本与0.23.0系列版本的合并)
    2.0.x:属于2.x系列版本的alpha版本
    2.1.x:属于2.x系列版本的beta版本
    2.2.0、2.3.0、2.4.0版本:属于正式版本,可用于实际生产环境,其中2.2.0版本是最合适生产的版本

    2.0版本包含 支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce
    相比1.0版本,具有更好扩展性,性能,并支持多种计算框架

    Hadoop1.0模块介绍

    HBase
    实时分布式数据库,基于HDFS,文件放在HDFS上,速度非常快

    Zookeeper
    分布式协作服务,协助HDFS工作

    Hive
    对数据存储的分类管理,并提供友好的数据管理管理接口API,提供HQL进行数据管理,通过Hive模块转换为MapReduce操作语句,对HDFS进行管理

    Pig
    动态语言,转换为MapReduce进行操作,对数据流进行管理

    Mahout
    数据挖掘模块

    Sqoop
    数据库ETL工具,将关系型数据库中的数据与HDFS(HDFS文件,HBase表,Hive表)上的数据进行相互导入导出。

    ETL:提取+转化+加载,从数据库中获取数据,并进行一系列的数据清理和清洗,将合格的数据进行转换成一定的格式进行存储到HDFS系统,以提供计算框架进行数据分析和挖掘。

    格式化数据:
    TSV格式:每行数据的每列之间以制表符’ ’进行分割
    CSV格式:每行数据的每列之间以制表符’,’进行分割

    Flume
    系统日志管理工具,将日志存储到指定的HBase目录下

    Hadoop2.0模块介绍

    与Hadoop1.0的主要不同

    HDFS2
    NameNode HA单节点故障
    NameNode横向扩展

    YARN
    对资源的管理,主要包括两方面
    1. 集群资源的管理
    2. 所有任务的调度

  • 相关阅读:
    html5页面资源预加载(Link prefetch)
    html5页面资源预加载(Link prefetch)
    纯CSS制作的图形效果
    echarts 较全面的参数设置分析
    设置css样式背景色透明 字体颜色的不透明 设置select 箭头样式
    this.refs['hh']获取dom对象,this.refs['hh'].value获取dom对象的值
    浏览器运行的时候 事件打印不出来,提示 此页面出现代码禁用了反向和正向缓存(由于默认事件导致的)
    react 点击事件以及原始event与react封装好的事件点击区别
    react中 props与forEach的用法
    基于webpack的react的环境项目搭建
  • 原文地址:https://www.cnblogs.com/cunchen/p/9464225.html
Copyright © 2011-2022 走看看