zoukankan      html  css  js  c++  java
  • 大数据简介

    • 离线计算
    1. 计算的速度比较慢
    2. 计算的数据量大
    3. 需要的技术Hadoop、HIve(离线分析,他的本质就是hadoop)、sqoop(协作框架) Hbase(数据库,非关系型数据库,分布式数据库)Flume(写作框架,收集日志数据)  CM (图形化管理器,监控集群资源状态,部署集群。)
    • 实时计算
    1. 计算的数据量体量没有离线大。
    2. 计算的速度快
    3. 实时计算是基于内存的计算。内存空间比较小,数据的体量不大。
    4.  需要技术
      1.        Scale (函数式遍程) Spark 、 (Spark Core ,Spark sql,Spark streaming [流式计算])
      2. Flink(他基本和Spark的设计相通)、 
      3. kdfaka 可以实时的帮我们抽取数据
      4.   PySpark 他和Spark是一样的,但是他是用python写的。
    5. 大数据的应用场景
      1. 交通(高德地图,利用到实时计算框架)
      2. 银行,(分析消费行为,推销具体业务)
      3. 股票的预测(基于多年数据的预测,用数据挖掘)
      4. 电商(淘宝、京东,统计分析用户浏览商品行为,推荐商品,每个人的淘宝页面的商品是不同
    6. 大数据流程
      1. 数据的来源,用户行为产生的数据,服务器产生的内部,用爬虫技术采集到的数据,关系型数据库中的数据。
      2. 数据的采集(kafaka流式的数据、flume服务器、sqoop数据库中的数据)
      3. 数据的存储 
      4. 数据的清洗 
        1.   采集过来的数据未必可用,ETL ,对数据清洗,数据清洗一般情况是用的hive
      5. 数据的分析
        1. 离线用hive
        2. 实时用的spark
      6. 数据的展示
        1. 一般会用插件进行数据的展示
  • 相关阅读:
    vue中添加favicon.ico
    SEO 小技巧汇总
    vue中echarts随窗体变化
    vue加载Element ui地址省市区插件-- element-china-area-data
    Echarts 修改折线的颜色和折线的点的大小方法
    vue中添加swiper轮播插件
    Cannot find module 'object-keys' 的解决办法
    适用于所有页面的基础样式base.css
    git clone时的各种报错汇总
    css mix-blend-mode 颜色滤镜混合模式
  • 原文地址:https://www.cnblogs.com/dousil/p/12180270.html
Copyright © 2011-2022 走看看