spark Streaming的Receiver和Direct的优化对比 - 走看看

zoukankan html css js c++ java

spark Streaming的Receiver和Direct的优化对比

Direct

1、简化并行读取：如果要读取多个partition，不需要创建多个输入DStream然后对它们进行union操作。Spark会创建跟Kafka partition一样多的RDD partition，并且会并行从Kafka中读取数据。所以在Kafka partition和RDD partition之间，有一个一对一的映射关系。

2、高性能：如果要保证零数据丢失，在基于receiver的方式中，需要开启WAL机制。这种方式其实效率低下，因为数据实际上被复制了两份，Kafka自己本身就有高可靠的机制，会对数据复制一份，而这里又会复制一份到WAL中。而基于direct的方式，不依赖Receiver，不需要开启WAL机制，只要Kafka中作了数据的复制，那么就可以通过Kafka的副本进行恢复。

一次且仅一次的事务机制：
基于receiver的方式，是使用Kafka的高阶API来在ZooKeeper中保存消费过的offset的。这是消费Kafka数据的传统方式。这种方式配合着WAL机制可以保证数据零丢失的高可靠性，但是却无法保证数据被处理一次且仅一次，可能会处理两次。因为Spark和ZooKeeper之间可能是不同步的。
基于direct的方式，使用kafka的简单api，Spark Streaming自己就负责追踪消费的offset，并保存在checkpoint中。Spark自己一定是同步的，因此可以保证数据是消费一次且仅消费一次。

Receiver方式

查看全文

相关阅读:
NSUserDefaults 简介，使用 NSUserDefaults 存储自定义对象
 OC，查找字符串2在字符串1中出现的次数
 iOS开发知识碎片----01
iOS中pch文件的应用
 UIKit性能调优实战讲解
 尽量将View设置为Opaque，iOS开发技巧
 Xcode开发技巧之code snippets(代码片段)
【工具】openwrt安装记录
 【对象模型】C++模版的编译链接过程——编译器真的会检查所有tocken层面的错误么？
【转】利用TCMalloc优化Nginx的性能

原文地址：https://www.cnblogs.com/yaohaitao/p/5710345.html

Copyright © 2011-2022 走看看