Kakfa揭秘 Day8 DirectKafkaStream代码解析

zoukankan html css js c++ java

Kakfa揭秘 Day8 DirectKafkaStream代码解析
Kakfa揭秘 Day8

DirectKafkaStream代码解析

今天让我们进入SparkStreaming，看一下其中重要的Kafka模块DirectStream的具体实现。

构造Stream

首先，从工厂方法开始，在工厂方法createDirectStream中，有两类关键内容：
1. fromOffset：是一个HashMap，指定我们要读取的topic和Partition。
2. Decoder:为什么需要Decoder，是因为Kafka并不对数据有任何的处理，在发送中并不进行解码，需要在接收端才进行解码。
Decoder共包含了三个输入参数，包括KeyDecoderClass，valueDecoderClass和messageHandler。
messageHandler会调用两个Decoder基于raw message读出数据。

Decoder的实现可以自行扩展，可以参照下面这个StringDecoder。需要注意的这里并不设置要解码的内容，所以完全可以应用在图片处理等领域。

与Kafka集群的交互

让我们进入DirectKafkaInputDStream，在这里主要构建了KafkaRDD。

其中有一个关键点，这里直接构建了KafkaCluster对象，主要向Kafka集群获取一些元数据。

让我们进入KafkaRDD，在compute方法中，主要是返回 kafkaRDDIterator。

其中有一次出现了一个kc，这个和前面的不同，这里真正要进行数据处理。会调用SimpleComsumer一次性获取一批数据。

分区方法

下面也是最为关键的部分：

我们可以看到，spark中的分区，是基于offsetRanges来决定的，offsetRanges的实现逻辑如下：是一个集合，读取过去一段时间产生的新的内容。

我可以看到，就是基于kafka数据来源决定的，也就是说partition是由kafka中的partition决定的，一个kafka的partition 加offset，就对应了RDD中的partition。在实际生产环境中，这段代码可以优化，更大的利用机器资源提高并行度。

欲知后事如何，且听下回分解!

DT大数据每天晚上20：00YY频道现场授课频道68917580
查看全文

相关阅读:
ldconfig和ldd用法
 Linux上ld和ld.so命令的区别
 一维二维码的提取、识别和产生
 最大轮廓和投影
 如何做出半透明和闪光效果
 马赫效应和应对方法
 钢管识别项目1
钢管识别项目2
选择轮廓(select_shape)
压板识别项目分析

原文地址：https://www.cnblogs.com/dt-zhw/p/5656000.html

Kakfa揭秘 Day8 DirectKafkaStream代码解析

Kakfa揭秘 Day8

DirectKafkaStream代码解析

构造Stream

与Kafka集群的交互

分区方法

欲知后事如何，且听下回分解!