zoukankan      html  css  js  c++  java
  • 大数据笔记01:大数据之Hadoop简介

    1. 背景

    随着大数据时代来临,人们发现数据越来越多。但是如何对大数据进行存储与分析呢

      单机PC存储和分析数据存在很多瓶颈,包括存储容量、读写速率、计算效率等等,这些单机PC无法满足要求。

    2. 为解决这些存储容量、读写速率、计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这三大技术为:

    (1)MapReduce

    (2)BigTable

    (3)GFS

    技术革命性:

       革命性变化01:成本降低,能使用PC,就不用大型机和高端存储。

       革命性变化02:软件容错硬件故障视为常态,通过软件保证可靠性。

       革命性变化03:简化并行分布式计算,无须控制节点同步和数据交换。

    但是google只是发表了相关的技术论文,没有开放源代码

    3.幸运的是,一个模仿了Google大数据技术的开源实现来了,他就是:

    Hadoop

    那么我们有必要说明一下Hadoop的功能与优势:

    (1)首先Hadoop是什么?

    Hadoop是一个开源的分布式存储分布式计算的平台。

    (2)为什么Hadoop可以进行分布式存储 和 分布式计算?

    这是因为Hadoop里面包括两个核心的组成:

    • HDFS :分布式文件系统,存储海量的数据

    • MapReduce :并行处理的框架,实现任务分解和调度

    (3)Hadoop可以用来做什么呢?

    搭建大型数据仓库,PB级数据存储、处理、分析、统计等业务。

    (4)Hadoop的优势

    • 优势1:高扩展(理论上无限)

    • 优势2:低成本

    • 优势3:成熟的生态圈(非常丰富的工具链)

    这些大量的工具是围绕Hadoop衍生出来的,它们的存在使得Hadoop变得更加高效和方便。

    (5)Hadoop的应用情况

    目前国内和国外很多大公司都是使用Hadoop搭建这个大数据平台。

    (6)Hadoop已经成为业界大数据平台搭建的首选,同时Hadoop的人才的需求也越来越大。

  • 相关阅读:
    HDU 4278 Faulty Odometer 8进制转10进制
    hdu 4740 The Donkey of Gui Zhou bfs
    hdu 4739 Zhuge Liang's Mines 随机化
    hdu 4738 Caocao's Bridges tarjan
    Codeforces Gym 100187M M. Heaviside Function two pointer
    codeforces Gym 100187L L. Ministry of Truth 水题
    Codeforces Gym 100187K K. Perpetuum Mobile 构造
    codeforces Gym 100187J J. Deck Shuffling dfs
    codeforces Gym 100187H H. Mysterious Photos 水题
    windows服务名称不是单个单词的如何启动?
  • 原文地址:https://www.cnblogs.com/hebao0514/p/4813505.html
Copyright © 2011-2022 走看看