HDInsight 上的 Hadoop 是什么?
Hadoop 是一种开源软件生态系统,在计算机群集上充当大数据的分布式处理、存储和分析框架。 借助 Azure HDInsight,可以在云中使用 Hortonworks 数据平台 (HDP) 分发版中的 Hadoop 组件,部署具有高可靠性与可用性的托管群集以及通过 Active Directory 提供企业级安全和管理。
Apache Hadoop 是用于大数据处理的原始开源项目。 在此基础上,可以开发被视为 Hadoop 技术堆栈一部分的相关软件和实用工具,包括 Apache Hive、Apache HBase、Apache Spark、Apache Kafka 等等。 有关详细信息,请参阅 HDInsight 中的 Hadoop 生态系统概述。
有哪些 Hadoop 组件和实用程序?
HDInsight 群集包含以下组件和实用程序。
- Avro (Microsoft .NET Library for Avro):Microsoft .NET 环境的数据序列化。
- Hive 和 HCatalog:与结构化查询语言 (SQL) 类似的查询,以及表和存储管理层。
- Mahout:适用于可缩放的机器学习应用程序。
- MapReduce:Hadoop 分布式处理和资源管理的旧框架。参见下一代资源框架 YARN。
- Oozie:工作流管理。
- Phoenix:基于 HBase 的关系数据库层。
- Pig:更简单的 MapReduce 转换脚本。
- Sqoop:数据导入和导出。
- Tez:让数据密集型进程能够大规模高效运行。
- YARN:Hadoop 核心库和下一代 MapReduce 软件框架的一部分。
- ZooKeeper:协调分布式系统中的进程。
NOTE:
有关特定组件的信息和版本信息,请参阅 HDInsight 中的 Hadoop 组件、版本和服务产品