大数据简介 - 走看看

zoukankan html css js c++ java

大数据简介
- 离线计算
1. 计算的速度比较慢
2. 计算的数据量大
3. 需要的技术Hadoop、HIve(离线分析，他的本质就是hadoop)、sqoop（协作框架） Hbase（数据库，非关系型数据库，分布式数据库）Flume(写作框架，收集日志数据) CM (图形化管理器，监控集群资源状态，部署集群。)
- 实时计算
1. 计算的数据量体量没有离线大。
2. 计算的速度快
3. 实时计算是基于内存的计算。内存空间比较小，数据的体量不大。
4. 需要技术
  
  Scale (函数式遍程) Spark 、（Spark Core ,Spark sql,Spark streaming [流式计算]）
  
  Flink(他基本和Spark的设计相通)、
  
  kdfaka 可以实时的帮我们抽取数据
  
  　　PySpark 他和Spark是一样的，但是他是用python写的。
5. 大数据的应用场景
  
  交通（高德地图，利用到实时计算框架）
  
  银行，（分析消费行为，推销具体业务）
  
  股票的预测（基于多年数据的预测，用数据挖掘）
  
  电商（淘宝、京东，统计分析用户浏览商品行为，推荐商品，每个人的淘宝页面的商品是不同
6. 大数据流程
  
  数据的来源，用户行为产生的数据，服务器产生的内部，用爬虫技术采集到的数据，关系型数据库中的数据。
  
  数据的采集（kafaka流式的数据、flume服务器、sqoop数据库中的数据）
  
  数据的存储
  
  数据的清洗
  
  　　采集过来的数据未必可用，ETL ,对数据清洗，数据清洗一般情况是用的hive
  
  数据的分析
  
  离线用hive
  
  实时用的spark
  
  数据的展示
  
  一般会用插件进行数据的展示
查看全文

相关阅读:
vue中添加favicon.ico
SEO 小技巧汇总
 vue中echarts随窗体变化
 vue加载Element ui地址省市区插件-- element-china-area-data
Echarts 修改折线的颜色和折线的点的大小方法
 vue中添加swiper轮播插件
 Cannot find module 'object-keys' 的解决办法
 适用于所有页面的基础样式base.css
git clone时的各种报错汇总
 css mix-blend-mode 颜色滤镜混合模式

原文地址：https://www.cnblogs.com/dousil/p/12180270.html