zoukankan      html  css  js  c++  java
  • 大数据及Hadoop的概述

    一、大数据存储和计算的各种框架即工具

      1.存储:HDFS:分布式文件系统

            Hbase:分布式数据库系统

            Kafka:分布式消息缓存系统

      2.计算:Mapreduce:离线计算框架

            storm:实时流式计算

            spark:离线批处理/实时流处理计算框架(MR的二次封装)

      3.辅助类工具:hive:数据仓库工具

               flume:数据采集工具

               sqoop:数据迁移工具

    二、大数据应用场景:

      典型应用:公司运营情况 =>典型网站:CNZZ、数据专家、友盟

      电商广告推荐系统:淘宝、京东、苏宁

        大量基于算法模型的运算,得出各种推荐结论

      天气预报等。。。

    三、Hadoop的概述

      Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。

      Hadoop中单个核心组件:

        分布式文件系统:HDFS =>实现存储在多台服务器之上

        分布式运行编程框架:Mapreduce=>实现在很多太机器的分布式并行计算框架

        分布式资源调度平台:Yarn=>帮助我们调度大量MR任务,并合理分配运算资源

  • 相关阅读:
    Codeforces Round #251 (Div. 2) A
    topcoder SRM 623 DIV2 CatAndRat
    topcoder SRM 623 DIV2 CatchTheBeatEasy
    topcoder SRM 622 DIV2 FibonacciDiv2
    topcoder SRM 622 DIV2 BoxesDiv2
    Leetcode Linked List Cycle II
    leetcode Linked List Cycle
    Leetcode Search Insert Position
    关于vim插件
    Codeforces Round #248 (Div. 2) B. Kuriyama Mirai's Stones
  • 原文地址:https://www.cnblogs.com/HelloBigTable/p/10578354.html
Copyright © 2011-2022 走看看