zoukankan      html  css  js  c++  java
  • 大数据及Hadoop的概述

    一、大数据存储和计算的各种框架即工具

      1.存储:HDFS:分布式文件系统

            Hbase:分布式数据库系统

            Kafka:分布式消息缓存系统

      2.计算:Mapreduce:离线计算框架

            storm:实时流式计算

            spark:离线批处理/实时流处理计算框架(MR的二次封装)

      3.辅助类工具:hive:数据仓库工具

               flume:数据采集工具

               sqoop:数据迁移工具

    二、大数据应用场景:

      典型应用:公司运营情况 =>典型网站:CNZZ、数据专家、友盟

      电商广告推荐系统:淘宝、京东、苏宁

        大量基于算法模型的运算,得出各种推荐结论

      天气预报等。。。

    三、Hadoop的概述

      Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。

      Hadoop中单个核心组件:

        分布式文件系统:HDFS =>实现存储在多台服务器之上

        分布式运行编程框架:Mapreduce=>实现在很多太机器的分布式并行计算框架

        分布式资源调度平台:Yarn=>帮助我们调度大量MR任务,并合理分配运算资源

  • 相关阅读:
    IPC之util.h源码解读
    新麦装机问题汇
    AngularJS2+调用原有的js脚本(AngularJS脚本跟本地原有脚本之间的关系)
    K60平台智能车开发工作随手记
    苹果手机上下载的文件在哪里?
    Mac电脑C语言开发的入门帖
    Python2中文处理纪要
    比特币核心概念及算法
    将dylib库嵌入macOS应用的方法
    那些令人惊艳的TensorFlow扩展包和社区贡献模型
  • 原文地址:https://www.cnblogs.com/HelloBigTable/p/10578354.html
Copyright © 2011-2022 走看看