zoukankan      html  css  js  c++  java
  • 了解Hadoop

    Hadoop简介:

      Hadoop是Apache软件基金会旗下的一份开源的分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的(c  c++ 都可以在Hadoop上开发),具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统HDFS(分布式文件存储)和 MapReduce(分布式文件处理)。Hadoop被公认为行业大数据的标本开源开发工具,在分布式环境下提供了海量数据的处理能力。几乎所有主流的厂商都围绕Hadoop提供的开发工具,开源软件,商业化工具和技术服务,如 雅虎,微软,淘宝,Facebook,百度等等... 都支持Hadoop。

    Hadoop的特性:

      Hadoop是一个能够多大量数据进行分布式处理的软件框架,并且是以一种可靠,高效,可伸缩的方式进行处理的,它具有以下几个方面的特性: 高可靠性,高效性,高可扩展性,高容错性,成本低(Hadoop不需要价格高得刀片服务器,普通的PC机就可以搭集群),运行在Linux平台上,支持多种编程语言。

    Hadoop在企业中的应用架构:

      企业把大量数据源抓过来进行分析,要进行三类分析:数据分析,数据实时查询,数据挖掘,

    这也是企业中最典型的三种应用,在Hadoop底层 我们用HDFS分布式文件存储系统存储大量数据

    我们要对这些数据进行离线分析(就是把数据那过来,进行批量处理),这就用到了MapReduce(分布式文件处理),除了MapReduce,我们还可以用到Hadoop的Hive(数据仓库)帮我们实现一些离线的数据分析,和Pig(一种编程语言,简化了Hadoop常见的工作任务)。分析完以后,我们要都数据进行实时查询,用Hbase(是一个分布式的,支持几十亿行数据存储,面向列的开源数据库,)。在企业中大体是这样应用的,当然还不止这些,

      由于本人入园时间较短,也是第一次写随笔,写的不对的地方希望大家多多谅解,写的不对的地方请您指正。

  • 相关阅读:
    Single Page Application
    ES6数组方法
    localStorage 和 sessionStorage
    border-color:transparent;
    自适应屏幕高度铺满全屏
    href="#"与javascript:void(0)的区别
    图片模式CMYK和RGB在浏览器下的变化
    IE css HACK
    z-index只能用在定位元素上
    mysql锁机制之间隙锁(Next-Key锁)(五)
  • 原文地址:https://www.cnblogs.com/xincunyiren/p/5456982.html
Copyright © 2011-2022 走看看