zoukankan html css js c++ java

基于Spark构建开放式的云计算平台第一阶段课程

在2014年6月30日到7月2日举行的Spark Summit是整个云计算大数据领域的Big Event，在会议上DataBricks公司提出了构建开放的Cloud平台，而且宣布该平台完全基于Spark，该平台功能类似于EC2，但比EC2更快、更灵活、更易用。

构建一个开发的云服务平台，需要存储技术、计算平台、消息驱动框架和开发API架构设计等，所以我们把课程主要分为两个阶段：1，Spark技术实战；2，构建开发云平他的消息驱动框架和开放API设计实现；

本课程是是整个系列课程的第一阶段课程，采用当今世界公认的最好的大数据技术Spark来打造开放云平台的计算框架。

授课的案例部分

1，主要采用Sogou和纽约时报的数据进行演示和说明；

2，在讲授各个知识点的时候亦分别数据支撑的案例演示；

课程介绍

课程包含Spark的架构设计、Spark编程模型、Spark内核框架源码剖析、Spark的广播变量与累加器、Shark的原理和使用、Spark的机器学习、Spark的图计算GraphX、Spark SQL、Spark实时流处理、Spark的优化、Spark on Yarn、JobServer等Spark 1.0.0所有的核心内容

最后以一个商业级别的Spark案例为基础，实战展示商业级别Spark项目的架构设计、实现和优化；

培训对象

1，云计算大数据从业者；

2， Hadoop使用者；

3，系统架构师、系统分析师、高级程序员、资深开发人员；

4，牵涉到大数据处理的数据中心运行、规划、设计负责人；

5，政府机关，金融保险、移动和互联网等大数据来源单位的负责人；

6，高校、科研院所涉及到大数据与分布式数据处理的项目负责人；

7，数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员；

学员基础

了解面向对象编程；

了解Linux的基本使用；

了解Scala语法

王家林老师

中国目前唯一的移动互联网和云计算大数据集大成者；

云计算大数据Spark亚太研究院院长和首席专家；

Spark亚太研究院院长和首席专家，Spark源码级专家，对Spark潜心研究（2012年1月起）2年多后，在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上，编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程（涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析）。Spark源码研究狂热爱好者，醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家，曾负责某知名公司的类Hadoop框架开发工作，专注于Hadoop一站式解决方案的提供，同时也是云计算分布式大数据处理的最早实践者之一，Hadoop的狂热爱好者，不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储，现在正负责Hadoop在搜索引擎中的研发等，著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等；

Android架构师、高级工程师、咨询顾问、培训专家；

通晓Android、HTML5、Hadoop，迷恋英语播音和健美；

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案；

国内最早（2007年）从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者（2009年）之一,成功为多个机构实现多款自定义HTML5浏览器，参与某知名的HTML5浏览器研发；

超过10本的IT畅销书作者；

联系邮箱：18610086859@126.com
　　联系电话：18610086859

培训内容

第一天	第1堂课：Spark的架构设计 1.1 Spark生态系统剖析 1.2 Spark的架构设计剖析 1.3 RDD计算流程解析 1.4 Spark的出色容错机制第2堂课：Spark编程模型 2.1 RDD 2.2 transformation 2.3 action 2.4 lineage 2.5宽依赖与窄依赖第3堂课：深入Spark内核 3.1 Spark集群 3.2 任务调度 3.3 DAGScheduler 3.4 TaskScheduler 3.5 Task内部揭秘第4堂课：Spark的广播变量与累加器 4.1 广播变量的机制 4.2 广播变量使用最佳实践 4.3 累加器的机制 4.4 累加器使用的最佳实践第5堂课：Spark多语言编程 5.1 PySpark API 5.2 使用 Python编写Spark程序 5.3 Java 8的函数式编程 5.4 使用Java 8编写Spark程序 5.5 Spark编程语言最佳选择：Scala 5.6 用Scala演绎Spark编程艺术第6堂课：SparkContext解析和数据加载以及存储 6.1 源码剖析SparkContext 6.2 Scala、Java、Python使用SparkContext 6.4 加载数据成为RDD 6.5 把数据物化
时间	內容	备注
第二天	第7堂课：深入实战RDD 7.1 DAG 7.2 深入实战各种Scala RDD Function 7.3 Spark Java RDD Function 7.4 RDD的优化问题第8堂课：Shark的原理和使用 8.1 Shark与Hive 8.2 安装和配置Shark 8.3 使用Shark处理数据 8.4 在Spark程序中使用Shark Queries 8.5 SharkServer 8.6 思考Shark架构第9堂课：Spark的机器学习 9.1 LinearRegression 9.2 K-Means 9.3 Collaborative Filtering 第10堂课：Spark的图计算GraphX 10.1 Table Operators 10.2 Graph Operators 10.3 GraphX 第11堂课：Spark SQL 11.1 Parquet支持 11.2 DSL 11.3 SQL on RDD
时间	內容	备注
第三天	第12堂课：Spark实时流处理 12.1 DStream 12.2 transformation 12.3 checkpoint 12.4 性能优化第13堂课：Spark程序的测试 13.1 编写可测试的Spark程序 13.2 Spark测试框架解析 13.3 Spark测试代码实战第14堂课：Spark的优化 14.1 Logs 14.2 并发 14.3 内存 14.4 垃圾回收 14.5 序列化 14.6 安全第15堂课：Spark on Yarn 15.1 Spark on Yarn的架构原理 15.2 Spark on Yarn的最佳实践第16堂课：JobServer 16.1 JobServer的架构设计 16.2 JobServer提供的接口 16.3 JobServer最佳实践第17堂课：Spark项目案例实战 17.1 Spark项目的最佳架构模式 17.2 案例的介绍和架构 17.3 案例的源码实现 17.4 调优分析Yahoo！淘宝等公司的大数据架构的生产环境下的案例，数据来自Sogou和纽约时报，阐述Spark项目案例的实施之道，使您能够应对绝大部分的大数据实施和业务场景。

查看全文

相关阅读:
前端性能优化：使用异步加载，延迟加载依赖
 超酷的图片标题悬浮特效
 JQuery插件：动态列和无间隙网格布局Mason.js
如何高效地产生多个不重复的随机数?
Endnote专题之--output style相关问题
 机器学习中的相似性度量(Similarity Measurement)
C语言生成服从均匀分布, 瑞利分布, 莱斯分布, 高斯分布的随机数
 MathType中如何批量修改公式字体和大小
 LaTeX 算法代码排版 --latex2e范例总结
 Latex论文写作-Texsdudio 快捷键总结

原文地址：https://www.cnblogs.com/spark-hadoop/p/4183508.html