zoukankan      html  css  js  c++  java
  • Hadoop_01_Apache Hadoop概述

    一:Hadoop(Hadoop Distributed File System)概述:对海量数据分析处理的工具

       1. Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台.允许使用简单

    的编程模型在大量计算机集群上对大型数据集进行分布式处理.

        

      2. Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

      3. 狭义上说,Hadoop 指Apache 这款开源框架,它的核心组件有

      

      4. 广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈

      

      

    二:Hadoop发展简史:

      Hadoop 最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着

    抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题

      2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案:

        1. 谷歌分布式文件系统(GFS),可用于处理海量网页的存储

        2. 分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题

      Nutch 的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目Hadoop,到2008年1月,

    Hadoop 成为Apache顶级项目,迎来了它的快速发展期

    三:Hadoop特性优点:

    :Hadoop在大数据、云计算中的位置和关系

      云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合

    发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端

    用户

      现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术”

      而Hadoop 则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不等同于云计算本身

    五:Hadoop国内外应用案例介绍:

      Hadoop 用于用户画像:

      

      HADOOP用于网站点击流日志数据挖掘  

      

      

      

  • 相关阅读:
    JAVA SSH 框架介绍
    Web开发者不可不知的15条编码原则
    全选,反选,全不选
    Python函数
    Python变量解析
    Python输入/输出语句
    Python程序基本架构
    Python开发环境安装
    java事件
    测试博客
  • 原文地址:https://www.cnblogs.com/yaboya/p/8983628.html
Copyright © 2011-2022 走看看