流处理 —— Spark Streaming中的join和Output Operations操作

zoukankan html css js c++ java

流处理 —— Spark Streaming中的join和Output Operations操作
1、print()

print操作会将DStream每一个batch中的前10个元素在driver节点打印出来。
ssc.textFileStream("file:\D:\workspace\idea\silent\src\main\resources\stream") .map((_, 1)) .reduceByKeyAndWindow((a: Int, b: Int) => a + b, (a: Int, b: Int) => a - b, Seconds(30), Seconds(10)) .print()
2. saveAsTextFiles(prefix, [suffix])

这个操作可以将DStream中的内容保存为text文件，每个batch的数据单独保存为一个文夹，文件夹名前缀参数必须传入，文件夹名后缀参数可选，最终文件夹名称的完整形式为prefix-TIME_IN_MS[.suffix]
ssc.textFileStream("file:\D:\workspace\idea\silent\src\main\resources\stream") .map((_, 1)) .reduceByKeyAndWindow((a: Int, b: Int) => a + b, (a: Int, b: Int) => a - b, Seconds(30), Seconds(10)) .saveAsTextFiles("file:\tmp","txt")
3、saveAsObjectFiles(prefix, [suffix])

这个操作和前面一个类似，只不过这里将DStream中的内容保存为SequenceFile文件类型，这个文件中保存的数据都是经过序列化后的Java对象。

4.saveAsHadoopFiles(prefix, [suffix])

这个操作和前两个类似，将DStream每一batch中的内容保存到HDFS上，同样可以指定文件的前缀和后缀。
　　

5.foreachRDD(func)

可以作为存储DB系统操作

注：可以每个partition中初始化一个连接等
ssc.textFileStream("file:\D:\workspace\idea\silent\src\main\resources\stream") .map((_, 1)) .foreachRDD(f => { // 初始化连接存储系统等 f.foreachPartition(p => { p.foreach(println) }) })
查看全文

相关阅读:
蚂蚁森林自动收能量
 え速记
 い　速记
 あ速记
 五十音图
 Leetcode 215. 数组中的第K个最大元素排序优先队列
 动手学深度学习 | 第二部分完结竞赛：图片分类 | 29
动手学深度学习 | 残差网络 ResNet | 27
动手学深度学习 | 批量归一化 | 26
动手学深度学习 | 含并行连结的网络GoogLeNet/Inception V3 | 25

原文地址：https://www.cnblogs.com/yyy-blog/p/12675117.html