zoukankan      html  css  js  c++  java
  • 大数据简介

    • 离线计算
    1. 计算的速度比较慢
    2. 计算的数据量大
    3. 需要的技术Hadoop、HIve(离线分析,他的本质就是hadoop)、sqoop(协作框架) Hbase(数据库,非关系型数据库,分布式数据库)Flume(写作框架,收集日志数据)  CM (图形化管理器,监控集群资源状态,部署集群。)
    • 实时计算
    1. 计算的数据量体量没有离线大。
    2. 计算的速度快
    3. 实时计算是基于内存的计算。内存空间比较小,数据的体量不大。
    4.  需要技术
      1.        Scale (函数式遍程) Spark 、 (Spark Core ,Spark sql,Spark streaming [流式计算])
      2. Flink(他基本和Spark的设计相通)、 
      3. kdfaka 可以实时的帮我们抽取数据
      4.   PySpark 他和Spark是一样的,但是他是用python写的。
    5. 大数据的应用场景
      1. 交通(高德地图,利用到实时计算框架)
      2. 银行,(分析消费行为,推销具体业务)
      3. 股票的预测(基于多年数据的预测,用数据挖掘)
      4. 电商(淘宝、京东,统计分析用户浏览商品行为,推荐商品,每个人的淘宝页面的商品是不同
    6. 大数据流程
      1. 数据的来源,用户行为产生的数据,服务器产生的内部,用爬虫技术采集到的数据,关系型数据库中的数据。
      2. 数据的采集(kafaka流式的数据、flume服务器、sqoop数据库中的数据)
      3. 数据的存储 
      4. 数据的清洗 
        1.   采集过来的数据未必可用,ETL ,对数据清洗,数据清洗一般情况是用的hive
      5. 数据的分析
        1. 离线用hive
        2. 实时用的spark
      6. 数据的展示
        1. 一般会用插件进行数据的展示
  • 相关阅读:
    用代码初始化AE控件许可
    打开shpfile,mdb,sde工作空间
    UESTC_Tournament CDOJ 124
    UESTC_Little Deer and Blue Cat CDOJ 1025
    UESTC_Judgment Day CDOJ 11
    UESTC_One Step Two Steps CDOJ 1027
    UESTC_In Galgame We Trust CDOJ 10
    UESTC_贪吃蛇 CDOJ 709
    UESTC_冰雪奇缘 CDOJ 843
    java 常用API 时间
  • 原文地址:https://www.cnblogs.com/dousil/p/12180270.html
Copyright © 2011-2022 走看看