zoukankan      html  css  js  c++  java
  • CDH简单介绍及体系架构

    官网介绍

       CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。

       简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。


    为什么选择CDH部署Cluster

       1)CDH基于稳定版Apache Hadoop,并应用最新Bug修复或者Feature的Patch

       2)Cloudera官网上安装、升级文档十分详细

       3)CDH支持Yum包、tar包、RPM包,Cloudera Manager四种安装方式。推荐使用Yum、Apt方式安装

     对于CDH的安装,后期我会分别使用yum和Cloudera Manager两种方式进行安装。在这里先说下Cloudera Manager的功能。

     Cloudera Manager的功能

        1)管理:对集群进行管理,例如添加、删除节点等操作

        2)监控:监控集群的健康情况,对设置的各种指标和系统的具体运行情况进行全面的监控

        3)诊断:对集群出现的各种问题进行诊断,并且给出建议和解决方案

        4)集成:多组件可以进行版本兼容间的整合

    CDH架构图

     

    当然以上所画图只是一些基础,还有很多大数据组件没有画。

    下面对图中体系结构做些简单说明:

     数据整合

      flume主要是日志采集组件,可以从tomcat服务日志或者nginx日志中获取产生的日志

      sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

       nfs是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。

     HDFS

      hdfs是一个分布式文件存储系统,可以将大量的大文件进行存储,它和其他的分布式文件系统的主要区别是它是一个高容错的系统,适合部署在廉价的机器上,并且hdfs能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

     Hbase

      官网解释:

        当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable: Chang等人的结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。

    Hbase的结构图我先贴出来,以后我会详细通过一篇博客进行介绍

     

    现在生产环境下,如果做实时SQL分析的话,一般不会直接在hbase中使用SQL进行查询,而是结合另一种工具Kylin。

    kylin官网解释

       Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc.开发并贡献至开源社区。

    kylin完全是由我们中国开发人员进行开发的,并且现在已经成为Apache的顶级项目,使用kylin可以提高相同SQL在hive或者hbase中查询的速度数十倍,具体kylin相关知识,后面通过博客介绍。

    原文链接:https://blog.csdn.net/czz1141979570/article/details/86530878

  • 相关阅读:
    组合算法问题
    递归之全排列问题
    递归之整数划分问题
    利用Python完成一个小游戏:随机挑选一个单词,并对其进行乱序,玩家要猜出原始单词
    对数组元素进行排序的方法总结(利用C++)
    用c++语言编写函数 int index(char *s,char * t),返回字符串t在字符串s中出现的最左边的位置,如果s中没有与t匹配的子串,则返回-1。类似于索引的功能。
    用MFC完成一个简单的猜数字游戏: 输入的四位数中,位置和数字都正确为A,数字相同而位置不同的为B。
    用Matlab完成:从第一个人开始报数(从1到3报数),凡报到3的人退出圈子,问最后留下的是原来第几号的那位。
    利用matlab实现以下功能:将一个正整数分解质因数。例如:输入90,打印出90=2*3*3*5。
    白书_倒三角形_C语言描述
  • 原文地址:https://www.cnblogs.com/diandianquanquan/p/12553589.html
Copyright © 2011-2022 走看看