spark目录导图

spark目录导图
前期工作

scala

一、介绍

1.1、RDD介绍

1.2、缓存策略
- cache persist, StorageLevel
- Lineage ，如果Lineage过长，为了容错，就需要进行缓存或者checkpoint
- 宽窄依赖
- Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主要是为了对数据进行缓存。
  控制算子有三种，cache,persist,checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。
1.3、Spark之任务流程和角色
- job的切分
- 任务的调度
- 执行架构
1.4、在Eclipse上调试Spark项目

二、安装
- 配置HA
- DAG Visualization 点击之后没有任何反应？，做各种尝试，都没有作用，最后发现的确是浏览器问题（换成chrome就可以了）。
- Ambari上spark2.1.1的Spark History ServerUI无法显示appliation信息, 这个也是浏览器问题
- spark源码编译
2.1、yarn-cluster

2.2、Spark升级注意事项

三、算子

3.1、算子的使用

四、简单案例

4.1、spark 简单案例
4.2、Spark SQL
4.3、Spark Streaming
- sparkSteaming介绍
  
  SparkStreaming案例
  
  Input DStreams and Receivers
  
  从一个监听端口读取数据流
  
  从kafka中获取数据
- 算子
  
  foreachRDD的正确使用方式
  
  过滤刷广告的用户 transform()的使用
  
  UpdateStateByKey
  
  Window Operations
  
  Spark Streaming中的4种常见操作函数的分析
五、优化

5.1、常规性能调优
- 5.1.1、并行度
- 5.1.2、广播变量
- 一个excetor拷贝一个副本，减少内存开销和网络传输。
- 5.1.3、kyro序列化
5.2、JVM调优
- 5.2.1、JVM调优之原理概述以及降低cache操作的内存占比
- 5.2.2、调节executor堆外内存与连接等待时长
5.3、shuffle调优

5.4、数据倾斜

5.5、如何防止内存溢出

六、问题
- 问题
- spark与storm对比
七、项目

Spark源码系列

7.1、电商用户行为分析大数据系统

7.2、推荐系统

7.3、YCLL

关注我的公众号[宝哥大数据]
查看全文

相关阅读:
最新以及历史各版本 .NET Framework 的下载
 Nuget 配置文件的位置
 记录一些树莓派的问题和解决
 前端自动化测试工具doh学习总结（一）
浏览器兼容性小记-DOM篇（一）
Selenium自动化测试问题
 DOM何时Ready
dijit样式定制(三)Button、RadioButton、CheckBox
dijit样式定制(二)dijit.form.Select与dijit.form.NumberSpinner
Portal for ArcGIS安装指南

原文地址：https://www.cnblogs.com/chengbao/p/14893733.html

前期工作

scala

一、介绍

1.1、RDD介绍

1.2、缓存策略

1.3、Spark之任务流程和角色

1.4、在Eclipse上调试Spark项目

二、安装

2.1、yarn-cluster

2.2、Spark升级注意事项

三、算子

3.1、算子的使用

四、简单案例

4.1、spark 简单案例

4.2、Spark SQL

4.3、Spark Streaming

五、优化

5.1、常规性能调优

5.2、JVM调优

5.3、shuffle调优

5.4、数据倾斜

5.5、如何防止内存溢出

六、问题

七、项目

Spark源码系列

7.1、电商用户行为分析大数据系统

7.2、推荐系统

7.3、YCLL

关注我的公众号[宝哥大数据]