Spark3000门徒第七课Spark运行原理及RDD解密总结 - 走看看

zoukankan html css js c++ java

Spark3000门徒第七课Spark运行原理及RDD解密总结

今晚听了王家林老师的第七课Spark运行原理及RDD解密，课后作业是：spark基本原理，我的总结如下：

1 spark是分布式基于内存特别适合于迭代计算的计算框架

2 mapReduce就两个阶段map和reduce，而spark是不断地迭代计算，更加灵活更加强大，容易构造复杂算法。

3 spark不能取代hive，hive做数据仓库存储，spark sql只是取代hive的计算引擎

4 spark中间数据可以在内存也可以在磁盘

5 partition是一个数据集合

6 注意：初学者执行多个步骤要注意分步检验，不然不知哪里错了

7 var data = sc.textFile("/user") 不必写hdfs:// ，根据上下文判断

8 读文件得到HadoopRDD，去掉文件中索引，得到MapPartitionsRDD,这样一系列分片的数据分布在不同的机器。

9 移动计算而不是移动数据

另外，王家林老师说出一个消息：

用java来写spark：人才多，与javaEE整合更容易，维护更容易，所以后面课程所有例子都是同时使用Scala和Java

后续课程可以参照新浪微博王家林_DT大数据梦工厂：http://weibo.com/ilovepains

王家林中国Spark第一人,微信公共号DT_Spark

查看全文

相关阅读:
（二）、一步一步学GTK+之窗口
 phpcms v9 评论的bug.
为discuz x2.5添加播放附件（mp4）的方法
 code::blocks + C + lua 编译环境
 C语言从声卡录音的一个demo
泛型集合(.NET 2.0)
VS2008对ASP.NET引用的外部JS文件不能调试
 for循环和foreach
CSS之DIV上下左右居中
 GridView控件相关(来自互联网)

原文地址：https://www.cnblogs.com/haitianS/p/5115303.html

Copyright © 2011-2022 走看看