zoukankan      html  css  js  c++  java
  • Spark3000门徒第七课Spark运行原理及RDD解密总结

    今晚听了王家林老师的第七课Spark运行原理及RDD解密,课后作业是:spark基本原理,我的总结如下:

    1 spark是分布式 基于内存 特别适合于迭代计算的计算框架

    2 mapReduce就两个阶段map和reduce,而spark是不断地迭代计算,更加灵活更加强大,容易构造复杂算法。

    3 spark不能取代hive,hive做数据仓库存储,spark sql只是取代hive的计算引擎

    4 spark中间数据可以在内存也可以在磁盘

    5 partition是一个数据集合

    6 注意:初学者执行多个步骤要注意分步检验,不然不知哪里错了

    7 var data = sc.textFile("/user") 不必写hdfs:// ,根据上下文判断

    8 读文件得到HadoopRDD,去掉文件中索引,得到MapPartitionsRDD,这样一系列分片的数据分布在 不同的机器。

    9 移动计算而不是移动数据

    另外,王家林老师说出一个消息:

    用java来写spark:人才多,与javaEE整合更容易,维护更容易,所以后面课程 所有例子 都是同时使用Scala和Java

    后续课程可以参照新浪微博 王家林_DT大数据梦工厂:http://weibo.com/ilovepains

    王家林  中国Spark第一人,微信公共号DT_Spark

  • 相关阅读:
    JAVA程序员常用英语
    计算机常用英语汇总
    从一个前端角度来说页面的优化:雅虎35条(转)
    前端学习(五)
    PS常用快捷键(收藏)
    web前端开发规范文档
    前端学习(四)
    Web前端开发面试题
    linux --批量修改文件内容
    git --添加多个文件
  • 原文地址:https://www.cnblogs.com/haitianS/p/5115303.html
Copyright © 2011-2022 走看看