Spark学习笔记 - 走看看

zoukankan html css js c++ java

Spark学习笔记

1、map与flatmap函数的区别；

map的结果不改变输入每个数据元的结构；

flatmap的结果，将每一个输入数据元经过计算后的结果都平铺了，其输出不再是对应每一个输入元数据结构；

2、textFile()函数中，第一个参数是文件路径；第二个可选参数，是控制文件的partitions的参数，默认值是1；

（1）所有spark中基于文件的输入函数，包括textfile，都可以运行在多个目录／压缩文件／正则匹配文件上。例如：textFile("/my/directory"),textFile("/my/direct*"), textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz").

（2）spark中通过使用sc.textFile(“不同filepath”)等输入函数，可以构成多个不同的输入rdd，作为多输入源；

还可以通过使用for循环等操作，分别赋值作为输入源路径参数，非常方便读取多个文件、目录、大量数据；

3、rdd是可以用"++""union"合并的，不过需要合并的两个对象类型相同；

4、reduceByKey与reduce的区别：

（1）reduceByKey是转化操作，reduce是行动操作；

（2）reduceByKey只能操作kv数据集，reduce则不是；

5、正如 .toString 可以将记录转为string类型一样，.toDS() 则可以将sequence数据转化为数据集（或者说数据表）的形式；类似的还有.toDF()，是将数据转换为关系数据表的函数；然后才可以使用spark SQL；

6、spark中job，stage，task的区别和划分依据：

（1）spark运行过程中job是以action操作划分的，除了我们自己写的程序的action动作，还包括调用的算法或者工具包里的action操作；

（2）stage是在job里面划分，是以action操作或shuffle操作划分的；

（3）task是stage的运行单位，与partition的数目相关；

查看全文

相关阅读:
rsync 安装使用详解
 shell全备份脚本（借鉴别人的，在其基础上修复完善了bug）
完全备份、差异备份以及增量备份的区别
 云主机格式化和挂载数据盘
 JSONP跨域
 php的多线程使用
 tp其他功能
 Zend Guard Loader和Zend Optimizer的安装（更新中）
前端编码规范
 前端优化

原文地址：https://www.cnblogs.com/zichun-zeng/p/5250592.html