zoukankan      html  css  js  c++  java
  • Hadoop——生态体系

    序言

    Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。

    Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。

    举例1:用户想要获取某个路径的数据,数据存放在很多的机器上,作为用户不用考虑在哪台机器上,HD-FS自动搞定。

    举例2:如果一个100p的文件,希望过滤出含有Hadoop字符串的行。这种场景下,HDFS分布式存储,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,同时MapReduce分布式计算可以将大数据量的作业先分片计算,最后汇总输出。

    核心组件

    HDFS:分布式文件系统(Hadoop Distributed File System)。

    MapReduce:分布式计算。

    YARN:为 Hadoop 数据处理提供了通用的资源管理器和调度器。

    Apache Hive:提供 HDFS 上数据的结构化定义,及数据的类 SQL 查询功能。

    Apache HBase:它是一个分布式 NoSQL 数据存储,提供 HDFS 上超大规模数据集的随机访问。

    Apache Flume:一个常用的数据采集工具,将基于事件的数据(如日志)转存至 Hadoop

    Apache Sqoop:用来在外部数据存储(如关系型数据库)与 Hadoop 之间进行数据移动。

    Apache ZooKeeper:来保障 Hadoop 生态圈中各个项目间的协同工作。

    主要学习方向

    HDFS概念

    MapReduce

    MapReduce 案例

    Hive架构

    Hive DDL

    Hive DML

    Hive查询访问

    Hive安全管理与压缩

    Hbase 架构与操作

    Hbase 压缩与存储

    Flume

    Sqoop

    zookeeper

    ElasticSearch

    Cloudera Manager

    Hue

    impala

    oozie

    资料

    https://www.cnblogs.com/edisonchou/category/542546.html

  • 相关阅读:
    【WPF】数据验证
    CSS 属性:touch-action
    sublime text3 中设置默认浏览器,并且设置快捷键
    Git克隆、修改、更新项目,及查看项目地址命令
    监听文本框输入oninput和onpropertychange事件
    css基础笔记
    纯css,div隐藏滚动条,保留鼠标滚动效果。
    打印机如何取消打印任务
    git使用上
    Git设置记住账号密码
  • 原文地址:https://www.cnblogs.com/cnki/p/8903575.html
Copyright © 2011-2022 走看看