Cloudera Hadoop-Cloudera大数据平台介绍
众所周知,Hadoop是一个开源的项目,所以很多公司在这个基础上进行商业化,在Hadoop生态系统中,规模最大,知名度最高的公司则是Cloudera,目前Intel已经成为额Cloudera最大的战略股东。Cloudera的客户有很多知名公司,如哥伦比亚广播公司,eBay,摩根大通,迪士尼等。
由于Hadoop深受客户欢迎,因此许多公司都推出了各自版本的Hadoop,也有一些公司围绕Hadoop开发产品。在Hadoop生态系统中,规模最大,知名度最高的公司就是Cloudera,2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop商用解决方案。
Cloudera企业解决方案包括Cloudera Hadoop发行版(Cloudera's Distribution Including Apache Hadoop,简称CDH),Cloudera Manager(CM)等。概括起来说,Cloudera提供一个可伸缩,稳定的,综合的企业级大数据管理平台,它拥有最多的部署案例,提供强大的部署,管理和监控工具。
Cloudera提供了Hadoop的商业发行版本CDH(Cloudera's Distribution Including Apache Hadoop),能够十分方便地对Hadoop集群进行安装,部署和管理。是目前比较完整的,充分测试的Hadoop及其相关项目的发行版。CDH的基础组件均基于Apache License开源,无论个人学习还是企业使用都比较有保障。
如下图所示(官方链接:https://www.cloudera.com/documentation/enterprise/5-16-x/topics/cdh_intro.html),CDH是Cloudera发布的一个自己封装的Hadoop商业版软件发行包,里面不仅包含了Cloudera的商业版Hadoop,同时CDH中也包含了各类常用的开源数据处理与存储框架,如Spark,Hive,HBase等。
部署Hadoop集群的时候,可以选择Cloudera Express免费版本。这个版本包含了CDH以及Cloudera Manager核心功能,提供了对集群的管理功能,比如自动化部署,中心化管理,监控,诊断功能等。另外,Cloudera Express免费版本对集群节点数目是无限制的。收费的Cloudera Enterprise拥有高级管理功能,如提供商业技术支持,自动化备份和灾难恢复,记录配置历史及回滚等,而这些功能Cloudera Express则没有。
CDH和Apache Hadoop对比
Hadoop大致可分为Apache Hadoop和第三方发行版本Hadoop。考虑到Hadoop集群部署的高效性,集群的稳定性以及后期集中的配置管理,业界大多使用Cloudera公司的发行版CDH。 Apache Hadoop社区版本虽然完全开源免费,但是也存在诸多问题: (1)版本管理比较混乱,让人有些无所适从; (2)集群部署配置较为复杂,通常安装集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下; (3)对集群的监控,运维,需要安装第三方的其他软件,运维难度比较大; (4)在Hadoop生态圈中,组件的选择和使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等,需要大量考虑兼容性的问题,经常会浪大量的时间去编译组件,解决版本冲突问题。 CDH版本的Hadoop的优势在于: (1)基于Apache协议,100%开源,版本管理清晰; (2)在兼容性,安全性,稳定性上比Apache Hadoop有大幅度的增强; (3)运维简单方便,对于Hadoop集群提供管理,诊断,监控,配置更改等功能,使得运维工作非常高效,而且集群节点越来越多,优势越明显。 (4)CDH提供成体系的文档,很多大公司的应用案例以及商业支持等。