zoukankan      html  css  js  c++  java
  • 初识Hadoop

    • Hadoop 发展历史
    1. Apache Nutch 网页抓取互据,数据量达到瓶颈,
    2. Google 发表论文 Google FileSystem 
    3. Apache 根据论文解决问题
    4. Google 发表论文MapReduce 
    5. Apache  根据论文,写了一套Mapreduce系统,应用到自己的项目
    6. Apache 将Hadoop 从原有的项目中分离出来
    7. 之后很多的企业,将Hadoop很广泛的得到了应用。
    • Hbase 本身不支持事务,但是剋和phoenix可以支持事务。他存储的容量是特别大的。HBase他可以有上百万列。上百亿的行。
    • 网站的网址 hadoop.apache.org 
    • Hadoop的定义
    1. 开源的,高可靠,可伸缩 的分布式的计算框架。
    • hadoop 版本选择
    1. 开源,测试不是很健全,所以用2.5 到2.8最好。
    • hadoop 四大模块
    1. Hadoop commons :他里边分装了大量的代码,未其他的三个模块提供代码支持。
    2. HDFS :分布式文件系统,Hadoop存储数据就是靠的这个模块。
    3. YARN :计算资源管理平台
      1. 他负责计算资源的分配和调度的。  
    4. MapReduce: 分布式的计算模型,可以理解为一个计算程序。他和YARN相当于火车和铁轨上的关系。包括后边学习的SPark 相当于高铁。
    • Hadoop解决了什么问题
    1. 解决了海量数据存储、海量数据的计算。 解决的方式就是分布式的方案,横向的扩展。

      

  • 相关阅读:
    学习进度条第一周
    构建之法阅读笔记01
    软件工程个人作业01
    《构建之法》阅读笔记
    Day6:闭包函数、无参装饰器
    Day5:函数参数
    Day4:字符编码与文件处理
    Day3:数据类型(布尔值、集合)
    Day2:数据类型(列表、元组、字典)
    Day1:初识Python
  • 原文地址:https://www.cnblogs.com/dousil/p/12180360.html
Copyright © 2011-2022 走看看