zoukankan      html  css  js  c++  java
  • Hadoop自学笔记(一)常见Hadoop相关项目一览

    本自学笔记来自于Yutube上的视频Hadoop系列。网址:

    https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个)

    以后不再赘述


    自学笔记,难免有各类错误纰漏。请看者谨慎。


    Hadoop的使用还有大数据时代什么的就不说了。Hadoop不是一个单独的工具,而是一整个生态系统。包括一系列工具。所以首先要先介绍一下Hadoop相关的工具和各类概念,是以后经常会接触到的。


    1. Hadoop Core


    a) HDFS  Hadoop分布式文件系统,Hadoop的核心之中的一个。会把TB, PB, ZB的数据切割成为以64M(默认)大小的数据块分布存储在不同硬盘上,而且给予备份(默认3份)


    b) MapReduce Hadoop的数据处理模型。

    简单来说,处理能够分为Map阶段和Reduce阶段。Map阶段找出要处理的数据,Reduce阶段来处理这些数据得到想要的结果。


    c) YARN  未来版本号,相当于MapReduce2.0版。

    一些升级比方。原来的MapReduce系统中,有JobTrackerTaskTracker,前者关注Name Node, 后者关注TaskNode, YARN里面JobTracker 会更仔细一点,分成几个分别关注job或者data


    2. Hadoop Projects


    a) PigHive:负责分析数据的。有点类似Hadoop里面的SQL工具。主要是由于每次使用就去写MapReduce程序太麻烦(并且也不是人人都喜欢java),所以有这些工具来提供类SQL的支持。差别是Pig更像提供了一种脚本语言,然后会将其转化为MapReduce, 而Hive提供类SQL语言。叫HiveQL


    b) HBase, Cassandra.  HBaseNOSQL类的数据库。Hadoop的数据存储方式。而且与PigHive无缝集成,基于googlebig table, 能够支持数百万列和亿行的数据。

     Cassandra主要涉及用来与Hadoop数据进行即时交互的工具。  


    c) HCatalog, Lucene, Hama, Crunch: HCatalog是日志工具,能够记录我们用不同的工具如Pig, Hive的查询记录等。Lucene提供搜索功能。各类搜索。Hama在分析科学研究数据时候经常使用,Crunch用来表现MapReducepipeline。上述四个工具都能够提供可视化的界面。


    d) Avro, Thrift: 提供数据的序列化/,让我们能够把数据序列化后在不同的程序间共享。Avro能够说是Hadoop基本的数据序列化工具。 Thrift主要用于不同开发语言间的数据序列化。


    e) Drill, Mahout: 数据智能化。Drill用于数据挖掘;Mahout用于数据分类等。比方依据你听的音乐智能推荐。


    3. Hadoop Incubation:

    a) Sqoop: 关系数据库和hadoop之间的数据交换

    b) Flume: 即时日志处理系统

    c) Chukwa: 

    d) Zookeeper:同步server和不同的Cluster之间和合作,同一时候提供统一管理界面

    e) Oozie: 大致相当于任务管理,比方先完毕一个Pig,然后再做一个Hive,然后Sqoop转换,用Oozie控制 

    f) Knok。安全控制

    g) HDT。用eclipse来开发Hadoop,比方MapReduce等。

    h) Spark:宣称比Hadoop快上百倍,主要把hadoop硬盘操作的东西放入内存中操作。Shark类似Spark,相相应hive.

    i) Ambari:管理整个project的工具

    j) 具体每一种工具,能够去incubator.apache.org/projects/

  • 相关阅读:
    XAML实例教程系列 依赖属性和附加属性
    分享Silverlight/Windows8/WPF/WP7/HTML5周学习导读(6月4日6月10日)
    QT GUI基本布局
    mqtt client libraries for c
    QT sqlite相关操作
    navicat 激活工具激活时必须断网 ,如果没有断网激活 激活过程中报如下错误 请卸载navicat 重新安装再行激活操作
    vmware 16 windows7企业版 tools安装不了 驱动签名验证
    虚拟机复制
    Install systemtap on Ubuntu 12.04
    DevOps的各个阶段
  • 原文地址:https://www.cnblogs.com/claireyuancy/p/6906805.html
Copyright © 2011-2022 走看看