zoukankan html css js c++ java

Spark架构案例鉴赏：Conviva、Yahoo！、优酷土豆、网易、腾讯、淘宝等公司的实际Spark案例

Spark是大数据的第二代技术，目前，SPARK已经构建了自己的整个大数据处理生态系统，如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术，并且是Apache顶级Project，可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。

本课程从实施Spark的架构设计入手，分别细致剖析Conviva、Yahoo！、优酷土豆、网易、腾讯、淘宝等公司的实际Spark案例，最后以Spark架构设计最佳模式结束，祝您和公司了解Spark在业界使用的内幕信息。

培训对象

1，系统架构师、系统分析师、高级程序员、资深开发人员；

2，牵涉到大数据处理的数据中心运行、规划、设计负责人；

3，云计算大数据从业者和Hadoop使用者；

4，政府机关，金融保险、移动和互联网等大数据来源单位的负责人；

5，高校、科研院所涉及到大数据与分布式数据处理的项目负责人；

6，数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员；

学员基础

了解面向对象编程；

有Java或者C/C++基础会更棒；

王家林老师

Spark亚太研究院院长和首席专家，Spark源码级专家，对Spark潜心研究（2012年1月起）2年多后，在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上，编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程（涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析）。Spark源码研究狂热爱好者，醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家，曾负责某知名公司的类Hadoop框架开发工作，专注于Hadoop一站式解决方案的提供，同时也是云计算分布式大数据处理的最早实践者之一，Hadoop的狂热爱好者，不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储，现在正负责Hadoop在搜索引擎中的研发等，著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等；

Android架构师、高级工程师、咨询顾问、培训专家；

通晓Android、HTML5、Hadoop，迷恋英语播音和健美；

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案；

国内最早（2007年）从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者（2009年）之一,成功为多个机构实现多款自定义HTML5浏览器，参与某知名的HTML5浏览器研发；

超过10IT畅销书作者

联系邮箱：18610086859@126.com
　　联系电话：18610086859

培训内容

第一天

第1堂课：Spark项目通用架构

1.1 数据源：MySQL、Oracle、Log

1.2 数据同步层：实时与非实时

1.3 存储：HDFS

1.4 计算:Spark、Shark、Streaming

1.5 计算结果：MySQL、Oracle、HBase、Redis、GemFire

1.6 各数据需求方使用数据的Interface

第2堂课：Conviva的Spark大数据架构鉴赏

2.1 Conviva介绍

2.2 Video Player Agents

2.3 Gateway

2.4 实时处理栈

2.5 离线处理栈

2.6 存储层

2.7 决策层

2.8 TV、PC、PAD、PHONE

2.9 架构演变趋势：全部由Spark实现

第3堂课：Yahoo！的Spark大数据架构鉴赏

3.1 可能是世界上最大的Spark集群

3.2 Yahoo！就有的架构的问题：慢！

3.3 移动应用、网页、Pixel Servers、广告服务器

3.4 数据移动与收集

3.5 Staging/Distribution：ETL/HDFS、流处理/查询

3.6 Spark:View1、View2、View3

3.7 Shark、Spark、MR、Hive、YARN

3.8 RDBMS/NoSQL

3.9 实时应用程序

3.10 BI/OLAP、Adhoc

第4堂课：优酷土豆使用大数据Spark

4.1 优酷土豆使用大数据Hadoop面临的越来越严重的问题

4.2 运营分析、机器学习、广告定向优化、搜索优化等

4.3 机器学习与图计算

4.4 Spark/Shark

第5堂课：网易使用Spark案例鉴赏

5.1 网易使用Spark后在效率上提升的数据

5.2 网易使用Spark的问题场景

5.3 网易对Shark的使用

5.4 在论离线与在线

第6堂课：腾讯使用Spark案例鉴赏

6.1 “数据实时采集、算法实时训练、系统实时预测”

6.2 广点通pCTR投放系统

6.3 基于日志数据的快速查询系统业务

6.4 Shark：快速查询以及内存表等优势

6.5 腾讯的Spark架构设计

第7堂课：淘宝使用Spark案例鉴赏

7.1 淘宝对Spark Graphx的大规模用户图计算和应用

7.2 深入剖析GraphX

7.3 淘宝的Spark集群架构设计

第8堂课：Spark架构最佳模式

8.1 已经具有大数据系统的Spark最佳架构模式

8.2 没有大数据基础的Spark最佳架构模式

8.3 系统并存的问题

查看全文

相关阅读:
分清函数指针和指针函数_
常量指针与指针常量的区别
 Oracle11g数据库在Win系统下的安装
 MySQL-python模块
 堡垒机（paramiko）
paramiko模块
 线程池
 线程、进程和协程
 Twisted
SocketServer模块

原文地址：https://www.cnblogs.com/spark-hadoop/p/4183464.html