zoukankan      html  css  js  c++  java
  • 大数据简介

    • 离线计算
    1. 计算的速度比较慢
    2. 计算的数据量大
    3. 需要的技术Hadoop、HIve(离线分析,他的本质就是hadoop)、sqoop(协作框架) Hbase(数据库,非关系型数据库,分布式数据库)Flume(写作框架,收集日志数据)  CM (图形化管理器,监控集群资源状态,部署集群。)
    • 实时计算
    1. 计算的数据量体量没有离线大。
    2. 计算的速度快
    3. 实时计算是基于内存的计算。内存空间比较小,数据的体量不大。
    4.  需要技术
      1.        Scale (函数式遍程) Spark 、 (Spark Core ,Spark sql,Spark streaming [流式计算])
      2. Flink(他基本和Spark的设计相通)、 
      3. kdfaka 可以实时的帮我们抽取数据
      4.   PySpark 他和Spark是一样的,但是他是用python写的。
    5. 大数据的应用场景
      1. 交通(高德地图,利用到实时计算框架)
      2. 银行,(分析消费行为,推销具体业务)
      3. 股票的预测(基于多年数据的预测,用数据挖掘)
      4. 电商(淘宝、京东,统计分析用户浏览商品行为,推荐商品,每个人的淘宝页面的商品是不同
    6. 大数据流程
      1. 数据的来源,用户行为产生的数据,服务器产生的内部,用爬虫技术采集到的数据,关系型数据库中的数据。
      2. 数据的采集(kafaka流式的数据、flume服务器、sqoop数据库中的数据)
      3. 数据的存储 
      4. 数据的清洗 
        1.   采集过来的数据未必可用,ETL ,对数据清洗,数据清洗一般情况是用的hive
      5. 数据的分析
        1. 离线用hive
        2. 实时用的spark
      6. 数据的展示
        1. 一般会用插件进行数据的展示
  • 相关阅读:
    linux学习方法之一
    HDU 1556 Color the ball
    Object-c学习之路十(NSNumber&NSValue)
    蜂鸣器驱动方式源程序--有源无源通用
    Wordpress更换主题之后出错
    mybatis_Generator配置
    Logistic Regression
    求两个字符串的最大公共字串
    数据结构排序系列详解之二 希尔排序
    《mysql必知必会》学习_第五章
  • 原文地址:https://www.cnblogs.com/dousil/p/12180270.html
Copyright © 2011-2022 走看看