zoukankan      html  css  js  c++  java
  • Hadoop_01_Apache Hadoop概述

    一:Hadoop(Hadoop Distributed File System)概述:对海量数据分析处理的工具

       1. Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台.允许使用简单

    的编程模型在大量计算机集群上对大型数据集进行分布式处理.

        

      2. Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

      3. 狭义上说,Hadoop 指Apache 这款开源框架,它的核心组件有

      

      4. 广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈

      

      

    二:Hadoop发展简史:

      Hadoop 最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着

    抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题

      2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案:

        1. 谷歌分布式文件系统(GFS),可用于处理海量网页的存储

        2. 分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题

      Nutch 的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目Hadoop,到2008年1月,

    Hadoop 成为Apache顶级项目,迎来了它的快速发展期

    三:Hadoop特性优点:

    :Hadoop在大数据、云计算中的位置和关系

      云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合

    发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端

    用户

      现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术”

      而Hadoop 则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不等同于云计算本身

    五:Hadoop国内外应用案例介绍:

      Hadoop 用于用户画像:

      

      HADOOP用于网站点击流日志数据挖掘  

      

      

      

  • 相关阅读:
    Network (poj1144)
    C. Hongcow Builds A Nation
    ZYB loves Xor I(hud5269)
    D. Chloe and pleasant prizes
    Game(hdu5218)
    约瑟夫环的递推方法
    Misaki's Kiss again(hdu5175)
    Exploration(hdu5222)
    B. Arpa's weak amphitheater and Mehrdad's valuable Hoses
    C. Arpa's loud Owf and Mehrdad's evil plan
  • 原文地址:https://www.cnblogs.com/yaboya/p/8983628.html
Copyright © 2011-2022 走看看