zoukankan      html  css  js  c++  java
  • 精通Spark:Spark内核剖析、源码解读、性能优化和商业案例实战

    这是世界上第一个Spark内核高端课程:

    1,  该课程在对Spark的13个不同版本源码彻底研究基础之上提炼而成;

    2,  课程涵盖Spark所有内核精髓的剖析;

    3,  课程中有大量的核心源码解读;

    4,  全景展示Spark商业案例下规划、部署、开发、管理技术;

    5,  涵盖Spark核心优化技巧

    该课程是Spark的高端课程,其前置课程是“18小时内掌握Spark:把云计算大数据速度提高100倍以上!”。

    培训对象

    1,  系统架构师、系统分析师、高级程序员、资深开发人员;

    2, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

    3, 云计算大数据从业者和Hadoop使用者;

    4, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

    5, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

    6, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

    学员基础

    了解面向对象编程;

    了解Linux的基本使用;

    王家林老师

    Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

    Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

    Android架构师、高级工程师、咨询顾问、培训专家;

    通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

    致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

    国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

    HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

       超过10IT畅销书作者

         联系邮箱:18610086859@126.com
      联系电话:18610086859

    培训内容

    第一天

    第1堂课:Spark为什么如此之快?

    1.1 基于内存的计算模式

    1.2 DAG的机制与实现

    1.3 Lineage的机制

    第2堂课:Spark的核心组件源码剖析

    2.1 SparkContext

    2.2 RDD Graph

    2.3 Scheduler

    2.4 BlockTracker

    2.5 ShuffleTracker

    2.6 Worker

    第3堂课:彻底剖析RDD

    3.1 分区

    3.2 依赖

    3.3 函数

    3.4 最佳位置

    3.5 分区策略

    3.6 Hadoop RDD

    3.7 Filtered RDD

    3.8 Joined RDD

    3.9 Scala中集合操作

    第4堂课:源码剖析RDD执行流程

    4.1 Driver部分RDD源码剖析

    4.2 Spark Client端的RDD源码剖析

    4.3 Worker中的RDD源码剖析

     

    时间

    內  容

    备注

     

     

     

     

     

     

     

     

     

    第二天

    第5堂课:Spark任务调度

    5.1 源码剖析RDD Objects

    5.2 源码剖析DAGScheduler

    5.3 源码剖析TaskScheduler

    5.4 DAG、TaskSet、Task

    5.5 Worker的Executor

    5.6 Worker的BlockManager

    第6堂课:调度器的优化

    6.1 调度器实现源码剖析

    6.2 Narrow Dependency

    6.4 Wide Dependency

    6.5 重用已缓存过的数据

    6.6 基于Partitioning的join优化

    第7堂课:Spark性能优化

    7.1 任务执行速度倾斜

    7.2 Reducer数量的优化

    7.3 Task GC和OOM

    7.4 本地性缓慢

    7.5序列化

    7.6 其它性能优化最佳时间

    第8堂课:Spark商业案例

    8.1 架构

    8.2 代码剖析

    8.3 优化

     

  • 相关阅读:
    委托demo
    事件demo
    数据结构与算法分析表ADT
    数据结构与算法分析栈ADT
    Access的“自动编号”问题
    C#获取时间函数
    在load事件中关闭窗体
    panel里面显示form的问题
    将RichTextBox 的内容直接写入数据库
    利用反射来创建一个Form.
  • 原文地址:https://www.cnblogs.com/spark-hadoop/p/4183522.html
Copyright © 2011-2022 走看看