zoukankan      html  css  js  c++  java
  • Spark架构案例鉴赏:Conviva、Yahoo!、优酷土豆、网易、腾讯、淘宝等公司的实际Spark案例

    Spark是大数据的第二代技术,目前,SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。

    本课程从实施Spark的架构设计入手,分别细致剖析Conviva、Yahoo!、优酷土豆、网易、腾讯、淘宝等公司的实际Spark案例,最后以Spark架构设计最佳模式结束,祝您和公司了解Spark在业界使用的内幕信息。

     

    培训对象

    1,  系统架构师、系统分析师、高级程序员、资深开发人员;

    2, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

    3, 云计算大数据从业者和Hadoop使用者;

    4, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

    5, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

    6, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

    学员基础

    了解面向对象编程;

    有Java或者C/C++基础 会更棒;

    王家林老师

    Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

    Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

    Android架构师、高级工程师、咨询顾问、培训专家;

    通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

    致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

    国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

    HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

       超过10IT畅销书作者

         联系邮箱:18610086859@126.com
      联系电话:18610086859

    培训内容

    第一天

    第1堂课:Spark项目通用架构

    1.1 数据源:MySQL、Oracle、Log

    1.2 数据同步层:实时与非实时

    1.3 存储:HDFS

    1.4 计算:Spark、Shark、Streaming

    1.5 计算结果 :MySQL、Oracle、HBase、Redis、GemFire

    1.6 各数据需求方使用数据的Interface

    第2堂课:Conviva的Spark大数据架构鉴赏

    2.1 Conviva介绍

    2.2 Video Player Agents

    2.3 Gateway

    2.4 实时处理栈

    2.5 离线处理栈

    2.6 存储层

    2.7 决策层

    2.8 TV、PC、PAD、PHONE

    2.9 架构演变趋势:全部由Spark实现

    第3堂课:Yahoo!的Spark大数据架构鉴赏

    3.1 可能是世界上最大的Spark集群

    3.2 Yahoo!就有的架构的问题:慢!

    3.3 移动应用、网页、Pixel Servers、广告服务器

    3.4 数据移动与收集

    3.5 Staging/Distribution:ETL/HDFS、流处理/查询

    3.6 Spark:View1、View2、View3

    3.7 Shark、Spark、MR、Hive、YARN

    3.8 RDBMS/NoSQL

    3.9 实时应用程序

    3.10 BI/OLAP、Adhoc

    第4堂课:优酷土豆使用大数据Spark

    4.1 优酷土豆使用大数据Hadoop面临的越来越严重的问题

    4.2 运营分析、机器学习、广告定向优化、搜索优化等

    4.3 机器学习与图计算

    4.4 Spark/Shark

    第5堂课:网易使用Spark案例鉴赏

    5.1 网易使用Spark后在效率上提升的数据

    5.2 网易使用Spark的问题场景

    5.3 网易对Shark的使用

    5.4 在论离线与在线

    第6堂课:腾讯使用Spark案例鉴赏

    6.1 “数据实时采集、算法实时训练、系统实时预测”

    6.2 广点通pCTR投放系统

    6.3 基于日志数据的快速查询系统业务

    6.4 Shark:快速查询以及内存表等优势

    6.5 腾讯的Spark架构设计

    第7堂课:淘宝使用Spark案例鉴赏

    7.1 淘宝对Spark Graphx的大规模用户图计算和应用

    7.2 深入剖析GraphX

    7.3 淘宝的Spark集群架构设计

    第8堂课:Spark架构最佳模式

    8.1 已经具有大数据系统的Spark最佳架构模式

    8.2 没有大数据基础的Spark最佳架构模式

    8.3 系统并存的问题

     

  • 相关阅读:
    024_Python3 filter 函数高级用法
    023_Python3 map 函数高级用法
    022_Python3 lambda函数高级用法
    #整体二分,树状数组#洛谷 3332 [ZJOI2013]K大数查询
    #线段树分治,线性基,并查集#CF938G Shortest Path Queries
    #RMQ,动态开点线段树#CF803G Periodic RMQ Problem
    #二分图匹配#UVA1194 Machine Schedule
    #树状数组套线段树#洛谷 1975 [国家集训队]排队
    #分治,Dijkstra#洛谷 3350 [ZJOI2016]旅行者
    #线段树,离线#CF1000F One Occurrence
  • 原文地址:https://www.cnblogs.com/spark-hadoop/p/4183464.html
Copyright © 2011-2022 走看看