zoukankan      html  css  js  c++  java
  • hadoop介绍

    1,hadoop:由Apache基金会所开发的分布式系统基础架构。

    2,hadoop特点:

    • 是一个分布式系统权限,有高容错性的特点,并且用来设计部署在低廉的硬件上,而且它提高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用

    3,hadoop框架的核心设计:

    • HDFS和mapreduse。HDFS为海量数据提供了存储而mapreduse则为海量数据提供了计算

    4,hadoop的优点:

    • hadoop是一个能够对大量数据进行分布式处理的软件框架,hadoop是一种可靠,高效可伸缩方式进行数据处理。
    • hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够已失败的节点进行重新分布处理
    • hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
    • hadoop还是可伸缩的,可以处理pb级数据。
    1. 高可靠性:hadoop按为处理和存储数据和吹数据大的能力值得人们信赖。
    2. 高扩展性:hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便的扩展到数以亿计的节点中
    3. 高效性:hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
    4. 高容错性:hadoop能够自动保存数据的副本集,并且能够自动的将失败的任务重新分配。
    5. 低成本:与一体机,商业数据仓库等数据集相比,软件的成本会大大下降。

    5,hadoop大数据处理的意义:

    • hadoop得以在大数据处理应用中的广泛,得益于自身在数据提取,变形和加载的天然优势,hadoop的分布式框架,将大数据引擎尽可能的靠近存储,对例如像加载(elt)这样的批处理操作相对合适,类似于这样的操作批处理结果可以直接走向存储。hadoop中的mapreduce功能实现了将单个任务打碎,并将碎片任务(map)发送到多个节点上,最后在一单个数据集的形式加载(reduce)到数据仓库中。

    6,hadoop核心架构图:

    7,HDFS架构是基于一组特定的节点构建的,参考上图即可,因为仅存在与一个namenode,因此这是hadoop的一个缺点(单点失败)。HDFS的NameNode和DataNode

    1. NameNode:通常是在一个HDFS实例中单独机器上运行的软件。
      • 它负责处理文件系统名称和控制客户外部机的访问
    2. DataNode:通常也是在HDFS实例中单独机器上运行的软件
      • hadoop集群包含一个NameNode和大量DataNode,DataNode通常以几家的形式组织,机架通常以交换机将所有的系统链接起来。hadoop的一个假设就是:机架内部节点之间的传输速度快于机架间节点的传输速度

    8,文件操作

    • 它不是文能的文件系统,它主要的目的是以流的形式访问写入的大型文件

    9,MapReduce:

    • MapReduce应用程序包含3个部分:一个map函数,一个reduce函数,一个main函数。main函数将作业控制和文本输入输出结合起来
    • mapreduce的框架图:

  • 相关阅读:
    技术科普好文收藏-持续更新
    linux命令--------tcpdump抓包和scp导出以及wireshark查看
    linux命令--------查询linux版本命令
    flash 问题记录
    硬件原理图英文缩写对照
    网上的TS流视频文件下载,解密,合成一个文件的python方法(转的别人大佬的,自己存一份~~)
    TS流
    python的文字和unicode/ascll 相互转换函数,和简单的加密解密。。。
    合唱队形算法问题记录(大佬代码是C++,但是主要是看解题思路)
    整数数据去重和排序的神秘技巧,适用于数据最大值不大的情况(比如数据是0-1000的随机数)
  • 原文地址:https://www.cnblogs.com/ljc-0923/p/10988408.html
Copyright © 2011-2022 走看看