zoukankan      html  css  js  c++  java
  • 大数据简介

    • 离线计算
    1. 计算的速度比较慢
    2. 计算的数据量大
    3. 需要的技术Hadoop、HIve(离线分析,他的本质就是hadoop)、sqoop(协作框架) Hbase(数据库,非关系型数据库,分布式数据库)Flume(写作框架,收集日志数据)  CM (图形化管理器,监控集群资源状态,部署集群。)
    • 实时计算
    1. 计算的数据量体量没有离线大。
    2. 计算的速度快
    3. 实时计算是基于内存的计算。内存空间比较小,数据的体量不大。
    4.  需要技术
      1.        Scale (函数式遍程) Spark 、 (Spark Core ,Spark sql,Spark streaming [流式计算])
      2. Flink(他基本和Spark的设计相通)、 
      3. kdfaka 可以实时的帮我们抽取数据
      4.   PySpark 他和Spark是一样的,但是他是用python写的。
    5. 大数据的应用场景
      1. 交通(高德地图,利用到实时计算框架)
      2. 银行,(分析消费行为,推销具体业务)
      3. 股票的预测(基于多年数据的预测,用数据挖掘)
      4. 电商(淘宝、京东,统计分析用户浏览商品行为,推荐商品,每个人的淘宝页面的商品是不同
    6. 大数据流程
      1. 数据的来源,用户行为产生的数据,服务器产生的内部,用爬虫技术采集到的数据,关系型数据库中的数据。
      2. 数据的采集(kafaka流式的数据、flume服务器、sqoop数据库中的数据)
      3. 数据的存储 
      4. 数据的清洗 
        1.   采集过来的数据未必可用,ETL ,对数据清洗,数据清洗一般情况是用的hive
      5. 数据的分析
        1. 离线用hive
        2. 实时用的spark
      6. 数据的展示
        1. 一般会用插件进行数据的展示
  • 相关阅读:
    使用apt-mirror建立本地debian仓库源
    在MacOS上利用docker构建buildroot
    mac开发错误:errSecInternalComponent
    NFS作为根文件系统,挂载超时
    关于物体 '固有类别' 与 '实际使用类别' 分离的情况,结构体定义方法
    Crontab could not create directory .ssh
    mac bash_profile
    Mac bash rc
    watchtower无法自动更新镜像的解决方法
    spring security oAuth2.0 数据库说明
  • 原文地址:https://www.cnblogs.com/dousil/p/12180270.html
Copyright © 2011-2022 走看看