zoukankan      html  css  js  c++  java
  • Kafka consumer在项目中的多线程处理方式

    对于KafkaConsumer而言,它不像KafkaProducer,不是线程安全的,状态是在consumer中维护的,所以实现时要注意多线程的使用,一般有2种使用方法:
     
    1:每个Consumer有自己的线程,consumer去拉取数据,并对数据处理,这种方式比较简单,易于实现,容易保持对消息的顺序处理
    2:消费者/处理者方式,创建一个线程池,在consumer拉取数据后,由线程池中的线程来处理数据,把拉取数据与处理数据解耦,但数据处理有可能破坏partition的消息顺序
     
    从Kafka 文档中我们也可以查到有关consumer多线程的处理方式

    项目实践:

    下图是项目中对consumer的具体应用,虽然也使用了线程池,但其实还是上述第一种方式,线程池在此只是用于启动consumer的运行:
     

    描述:

    ConsumerGroup类:这对应于消费组,在上面第1步将创建一个监听对象,其将被传入到ConsumerGroup对象的创建过程中,在cg中将创建一个RunnableConsumer的对象列表(list),也就是上图第3步,列表中的consumer对象的数量将对应所期望的在Group组中consumer的数量。同时创建一个线程池对象executor,此处线程池的数量和consumer的数量一致
     

    RunnableConsumer类:这是一个线程类,实现了Runnable接口,里面创建了一个KafkaConsumer对象,线程启动程序中执行对topic的订阅,并不断的拉取消息

    public class RunnableConsumer<K,V> implements Runnable {
        private Consumer<K,V> consumer;
        private final IConsumerListener<ConsumerRecords<K,V>> listener;
    
            
        private RunnableConsumer(final IConsumerListener<ConsumerRecords<K,V>> listener, Properties... props) {
    
            this.consumer = new KafkaConsumer<>(props, keyDeserClass, valueDeserClass);
            this.listener = listener;
        }
        
        public void run() {
            try {
                consumer.subscribe(topics);
                while (true) {
                    ConsumerRecords<K,V> records = null;
                    try {
                        records = consumer.poll(1000);
                        if(records != null && records.count() > 0) {
                            listener.notify(records);
                        }
                    } catch(WakeupException wex) {
                        LOGGER.trace("Got a WakeupException. Doing nothing. Exception Details:",wex);
                    } 
                }
            } catch (Throwable e) {throw e;
            } finally {
                consumer.close();
            }
        }
    }

    Listener类:这是一个监听类,用于实际处理某一topic消息,先创建监听对象,在创建cg时,注册到RunnerConsumer类中,如果consumer拉取到消息,则将消息通知监听类去具体处理,不同的业务需要定义不同的业务监听类,这样可以将消费与处理放在不同的模块中去执行,但因为还是在同一线程中执行,处理过程中万一出现异常,超时等情况,将会冲击到consumer心跳的维持,再平衡等后继问题

    修改为第二种方式

    如果想使用第二种方式,将数据的处理从consumer中解耦出来,在独立的线程中执行数据处理过程,可以将上面的listener修改为一个线程类,在consumer中有拉取到消息,则从线程池中取出线程处理数据,这种方式的一个最大的问题,就是如何保证消息是按顺序处理的,例如,如果一个partition中先后有2条消息,当consumer poll到消息后,将提交到2个线程处理,这就无法保证顺序处理,对于那些需要保持消息顺序处理的业务,需要额外的线程同步处理机制。但因为不需要在consumer中对数据进行处理,consumer的性能也提高了,而且避免了数据处理超时,consumer Rebalance等潜在问题

    records = consumer.poll(1000);
    if(records != null && records.count() > 0) {
           executor.submit(new listener(records));
    }

    参考:

    http://kafka.apache.org/0100/javadoc/org/apache/kafka/clients/consumer/KafkaConsumer.html#multithreaded

    https://howtoprogram.xyz/2016/05/29/create-multi-threaded-apache-kafka-consumer/

  • 相关阅读:
    漫谈架构读书笔记
    软件架构怎样进行架构
    大型网站技术架构阅读笔记6
    beta里程碑总结
    团队总结
    用户体验
    小强大扫荡
    团队测试计划
    团队第二次冲刺第十天
    团队第二次冲刺第九天
  • 原文地址:https://www.cnblogs.com/benfly/p/9242294.html
Copyright © 2011-2022 走看看