- 离线计算
- 计算的速度比较慢
- 计算的数据量大
- 需要的技术Hadoop、HIve(离线分析,他的本质就是hadoop)、sqoop(协作框架) Hbase(数据库,非关系型数据库,分布式数据库)Flume(写作框架,收集日志数据) CM (图形化管理器,监控集群资源状态,部署集群。)
- 实时计算
- 计算的数据量体量没有离线大。
- 计算的速度快
- 实时计算是基于内存的计算。内存空间比较小,数据的体量不大。
- 需要技术
- Scale (函数式遍程) Spark 、 (Spark Core ,Spark sql,Spark streaming [流式计算])
- Flink(他基本和Spark的设计相通)、
- kdfaka 可以实时的帮我们抽取数据
- PySpark 他和Spark是一样的,但是他是用python写的。
- 大数据的应用场景
- 交通(高德地图,利用到实时计算框架)
- 银行,(分析消费行为,推销具体业务)
- 股票的预测(基于多年数据的预测,用数据挖掘)
- 电商(淘宝、京东,统计分析用户浏览商品行为,推荐商品,每个人的淘宝页面的商品是不同
- 大数据流程
- 数据的来源,用户行为产生的数据,服务器产生的内部,用爬虫技术采集到的数据,关系型数据库中的数据。
- 数据的采集(kafaka流式的数据、flume服务器、sqoop数据库中的数据)
- 数据的存储
- 数据的清洗
- 采集过来的数据未必可用,ETL ,对数据清洗,数据清洗一般情况是用的hive
- 数据的分析
- 离线用hive
- 实时用的spark
- 数据的展示
- 一般会用插件进行数据的展示