Kafka consumer在项目中的多线程处理方式

zoukankan html css js c++ java

Kafka consumer在项目中的多线程处理方式
对于KafkaConsumer而言，它不像KafkaProducer，不是线程安全的，状态是在consumer中维护的，所以实现时要注意多线程的使用，一般有2种使用方法：

1：每个Consumer有自己的线程，consumer去拉取数据，并对数据处理，这种方式比较简单，易于实现，容易保持对消息的顺序处理

2：消费者/处理者方式，创建一个线程池，在consumer拉取数据后，由线程池中的线程来处理数据，把拉取数据与处理数据解耦，但数据处理有可能破坏partition的消息顺序

从Kafka 文档中我们也可以查到有关consumer多线程的处理方式

项目实践：

下图是项目中对consumer的具体应用，虽然也使用了线程池，但其实还是上述第一种方式，线程池在此只是用于启动consumer的运行：

描述：
ConsumerGroup类：这对应于消费组，在上面第1步将创建一个监听对象，其将被传入到ConsumerGroup对象的创建过程中，在cg中将创建一个RunnableConsumer的对象列表（list），也就是上图第3步，列表中的consumer对象的数量将对应所期望的在Group组中consumer的数量。同时创建一个线程池对象executor，此处线程池的数量和consumer的数量一致

RunnableConsumer类：这是一个线程类，实现了Runnable接口，里面创建了一个KafkaConsumer对象，线程启动程序中执行对topic的订阅，并不断的拉取消息

public class RunnableConsumer<K,V> implements Runnable { private Consumer<K,V> consumer; private final IConsumerListener<ConsumerRecords<K,V>> listener; private RunnableConsumer(final IConsumerListener<ConsumerRecords<K,V>> listener, Properties... props) { this.consumer = new KafkaConsumer<>(props, keyDeserClass, valueDeserClass); this.listener = listener; } public void run() { try { consumer.subscribe(topics); while (true) { ConsumerRecords<K,V> records = null; try { records = consumer.poll(1000); if(records != null && records.count() > 0) { listener.notify(records); } } catch(WakeupException wex) { LOGGER.trace("Got a WakeupException. Doing nothing. Exception Details:",wex); } } } catch (Throwable e) {throw e; } finally { consumer.close(); } } }

Listener类：这是一个监听类，用于实际处理某一topic消息，先创建监听对象，在创建cg时，注册到RunnerConsumer类中，如果consumer拉取到消息，则将消息通知监听类去具体处理，不同的业务需要定义不同的业务监听类，这样可以将消费与处理放在不同的模块中去执行，但因为还是在同一线程中执行，处理过程中万一出现异常，超时等情况，将会冲击到consumer心跳的维持，再平衡等后继问题

修改为第二种方式

如果想使用第二种方式，将数据的处理从consumer中解耦出来，在独立的线程中执行数据处理过程，可以将上面的listener修改为一个线程类，在consumer中有拉取到消息，则从线程池中取出线程处理数据，这种方式的一个最大的问题，就是如何保证消息是按顺序处理的，例如，如果一个partition中先后有2条消息，当consumer poll到消息后，将提交到2个线程处理，这就无法保证顺序处理，对于那些需要保持消息顺序处理的业务，需要额外的线程同步处理机制。但因为不需要在consumer中对数据进行处理，consumer的性能也提高了，而且避免了数据处理超时，consumer Rebalance等潜在问题

records = consumer.poll(1000); if(records != null && records.count() > 0) { executor.submit(new listener(records)); }

参考：

http://kafka.apache.org/0100/javadoc/org/apache/kafka/clients/consumer/KafkaConsumer.html#multithreaded

https://howtoprogram.xyz/2016/05/29/create-multi-threaded-apache-kafka-consumer/
查看全文

相关阅读:
【08】Python数据分析基础
 C#类和类成员初始化顺序
 C# 在子窗体调用父窗体的值（转）
求实对称阵的特征值和特征向量(转)
Dev express 笔记
 Arcgis桌面开发，Python引用GDAL库的方法
 操作系统学习笔记--第三章--进程
 操作系统学习笔记--第一章--计算机系统概述
 GIS专业分析方法（待更新）
C#中不用安装Oracle客户端连接Oracle数据库（转）

原文地址：https://www.cnblogs.com/benfly/p/9242294.html