zoukankan      html  css  js  c++  java
  • 一、Hadoop是什么?

    一、Hadoop是什么? 

    答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 

    hadoop的核心主要包含:HDFS和MapReduce 
    HDFS是分布式文件系统,用于分布式存储海量数据。 
    MapReduce是分布式数据处理模型,本质是并行处理。 


    二、多少数据算海量数据? 

    答:个人认为,TB(1024GB)级别往上就可以算海量数据。 


    三、谁在使用hadoop? 

    N多大型互联网公司,这里列的比较全: 
    http://wiki.apache.org/hadoop/PoweredBy 

    在国内,包括中国移动、百度、网易、淘宝、腾讯、金山和华为等众多公司都在研究和使用它 


    四、用它来做什么? 

    答:海量数据处理。。。似乎有点虚呵呵,我能想到的用hadoop的地方: 
    1、最简单的,做个数据备份/文件归档的地方,这利用了hadoop海量数据的存储能力 
    2、数据仓库/数据挖掘:分析web日志,分析用户的行为(如:用户使用搜索时,在搜索结果中点击第2页的概率有多大) 
    3、搜索引擎:设计hadoop的初衷,就是为了快速建立索引。 
    4、云计算:据说,中国移动的大云,就是基于hadoop的 
    5、研究:hadoop的本质就是分布式计算,又是开源的。有很多思想值得借鉴。 


    总之,你可以把hadoop看成是:分布式计算框架(或系统、或平台),可以说是用来做云计算的,呵呵。(云计算的本质就是:海量数据存储/并行处理,即hadoop中的HDFS和MapReduce) 


  • 相关阅读:
    .java中如何实现序列化,有什么意义
    缓存穿透
    缓存击穿
    缓存雪崩
    redis缓存预热
    Docket 的常用命令
    数据库优化方法
    servlet和jsp的区别:
    6原则1法则
    学习IntelliJ IDEA(二)模块
  • 原文地址:https://www.cnblogs.com/robbychan/p/3786675.html
Copyright © 2011-2022 走看看