即学即用的Spark实战44讲

zoukankan html css js c++ java

即学即用的Spark实战44讲

课程背景

如今，数据的重要已无需多言，互联网企业对于数据的利用效率，很大程度的决定了企业竞争力，而数据处理技术很大程度上就决定了数据的利用效率。

因为数据很重要，所以做数据处理的人薪资也贵，毕竟市场决定价格。在拉勾网上，同一公司提供的岗位里，同等资历的开发工程师和大数据工程师，月薪可能相差20k。可以预见的是随着物联网、5G的普及，大数据人才只会越来越抢手。

专栏解读

本专栏分为 7 个模块，除了 Spark 基础知识，还涵盖了当下流行的流处理、图挖掘、机器学习等内容。

除了前2个模块，后面的每个模块都将以理论与实践并重的讲述方式，突出 Spark 用于主流业务场景的必学内容，简洁实用，注重实践，降低学习门槛，让你学了就能用。

专栏最后将以一个完整实战项目结尾，带你用 Spark 完整体验一个商业智能系统的开发流程，串联和巩固所学知识。

7个模块针对不同类型读者，侧重点各有不同，然而不论你是数据工程师、数据架构师，还是数据分析师、数据爱好者，都可以从中得到自己所需。

课程讲师

范东来 Spark Contributor 和 Superset Contributor，泛山科技联合创始人
曾任知名大数据公司技术负责人、架构师，负责搭建整个公司的大数据架构和平台，主导和参与过国内诸多金融机构大数据项目与平台实施，具有丰富的大数据技术经验。此外，他还是《Spark 海量数据处理》与《Hadoop 海量数据处理》图书作者。

课程大纲

模块一：基础预习

第01讲： MapReduce：计算框架和编程模型
第02讲：Hadoop：集群的操作系统
第03讲：如何设计与实现统一资源管理与调度系统
第04讲：解析 Spark 数据处理与分析场景
第05讲：如何选择 Spark 编程语言以及部署 Spark

模块二：Spark 编程

第06讲：Spark 抽象、架构与运行环境
第07讲：Spark 核心数据结构：弹性分布式数据集 RDD
第08讲：算子：如何构建你的数据管道？
第09讲：函数式编程思想：你用什么声明，你在声明什么？
第10讲：共享变量：如何在数据管道中使用中间结果？
第11讲：计算框架的分布式实现：剖析 Spark Shuffle 原理

模块三：Spark 高级编程

第12讲：如何处理结构化数据：DataFrame 、Dataset和Spark SQL
第13讲：如何使用用户自定义函数？
第14讲：列式存储：针对查询场景的极致优化
第15讲：如何对 Spark 进行全方位性能调优？
第16讲：Tungsten 和 Hydrogen：Spark 性能提升与优化计划
第17讲：实战：探索葡萄牙银行电话调查的结果

模块四：Spark 流处理

第18讲：流处理：什么是流处理？以及你必须考虑的消息送达保证问题
第19讲：批处理还是流处理：Spark Streaming 抽象、架构与使用方法
第20讲：如何在生产环境中使用 Spark Streaming
第21讲：统一批处理与流处理：Dataflow
第22讲：新一代流式计算框架：Structured Streaming
第23讲：如何对 Spark 流处理进行性能调优？
第24讲：实战：如何对股票交易实时价格进行分析？

模块五：Spark 图挖掘

第25讲：什么是图：图模式，图相关技术与使用场景
第26讲：数据并行：Spark 如何抽象图，如何切分图，如何处理图
第27讲：像顶点一样思考：大规模并行图挖掘引擎 GraphX
第28讲：Pregel 还是 MapReduce：一个有趣的算子 AggregateMessage
第29讲：实战 1：用 GraphX 实现 PageRank 算法
第30讲：实战 2：用 GraphX 求得顶点的 n 度邻居

模块六：Spark 机器学习

第31讲：机器学习是什么：机器学习与机器学习工作流
第32讲：标准化机器学习流程：ML pipeline
第33讲：如何对数据进行预处理？
第34讲：少数服从多数：随机森林分类器
第35讲：物以类聚：Kmeans 聚类算法
第36讲：推荐引擎：协同过滤
第37讲：如何对模型性能进行评估并调优？

模块七：商业智能系统实战

第38讲：数据仓库与商业智能系统架构剖析
第39讲：作为 Yelp 运营负责人，如何根据数据进行决策？
第40讲：如何获取业务数据库的数据
第41讲：如何构建数据立方体
第42讲：如何通过 OLAP 与报表呈现结果
第43讲：两个简化了的重要问题：数据更新和数据实时性
第44讲：另一种并行：Lambda 架构与 Kappa 架构

结束语

结束语：统一的编程模型，统一的编程语言，统一的架构

彩蛋

彩蛋：如何成为 Spark Contributor

课程地址

查看全文

相关阅读:
Balsamiq Mockups完全手册[转]
如何成为一个专家
 [ 转]discuz 的加密与解密函数authcode解析
 无题
 [转]Yahoo!网站性能最佳体验的34条黄金守则——内容
 唐僧的家书
 Webservice超时问题
 c#类的初始化顺序
 智力逻辑题程序实现(生日猜测)
Winform下重写Button按钮

原文地址：https://www.cnblogs.com/shitboy/p/13475755.html