zoukankan      html  css  js  c++  java
  • 分布式消息队列kafka

    先启动zookeeper服务器
    bin/zookeeper-server-start.sh config/zookeeper.properties &
    再启动kafka服务器
    bin/kafka-server-start.sh -daemon config/server.properties &
    创建topic
    bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 1 --topic test

    replication factor控制有多少个server将会复制各条被写入Topic的消息。如果该值为3,那么可以有2台server停止工作的情况下,消费端以访问到消息。我们建议你设置该值为2或者3,这样就可以在重启服务时而不影响消费端消费数据。

    发送message
    bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test 
     
    Hello kafka
    启动consumer
    bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning
     
    集群环境需要修改配置文件
    # vim config/server.properties
    brokerid:这个每个server(broker)必须唯一的数字
    advertised.host.name=这里写ip或者域名,默认是读取hostname,这样需要所有消费端都配置这个hostname才能访问  
    还有就是zookeeper.connect也要配置
    zookeeper.connect=sea2:2181,sea3:2181,sea4:2181,sea5:2181,sea6:2181
     
    每个分区行给出分区信息
    bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
     
    下载一个jar包,运行:
    java -cp KafkaOffsetMonitor-assembly-0.2.0.jar 
         com.quantifind.kafka.offsetapp.OffsetGetterWeb 
         --zk zk-server1,zk-server2 
         --port 8080 
         --refresh 10.seconds 
         --retain 2.days 1>>stdout.log 2>>stderr.log &
    里面引用了googleapi的一个angular.js 被墙了。。。。
     
     
    topic:创建时topic名称
    partition:分区编号
    offset:表示该parition已经消费了多少条message
    logSize:表示该partition已经写了多少条message
    Lag:表示有多少条message没有被消费。
    Owner:表示消费者
    Created:该partition创建时间
    Last Seen:消费状态刷新最新时间。
     
    下面进行性能测试:
     
    创建topic
    bin/kafka-topics.sh --zookeeper sea2:2181,sea3:2181,sea4:2181,sea5:2181,sea6:2181  --create --topic test-rep-one --partitions 6 --replication-factor 1
    发送消息性能测试:
    bin/kafka-producer-perf-test.sh --messages 5000000 --message-size 5000  --batch-size 5000 --topics test-rep-one --threads 8 --broker-list sea4:9092,sea5:9092,sea6:9092
    接受消息性能测试:
    bin/kafka-consumer-perf-test.sh --zookeeper sea2:2181,sea3:2181,sea4:2181,sea5:2181,sea6:2181  --messages 50000000 --topic test-rep-one --threads 1
     
    bin/kafka-producer-perf-test.sh --broker-list sea4:9092,sea5:9092,sea6:9092 --messages 1000000 --topic test-rep-one --threads 3 --message-size 1000 --batch-size 5000 --compression-codec 3 --show-detailed-stats 
    bin/kafka-consumer-perf-test.sh --zookeeper sea2:2181,sea3:2181,sea4:2181,sea5:2181,sea6:2181 --messages 1000000 --topic test-rep-one --message-size 1000  --threads 3 --group test --compression-codec 3 --num-fetch-threads 3 --show-detailed-stats   
     
    在删除topic过程发现这个功能只是做了个删除标记,要手工删除zk节点数据,跟磁盘上数据,结果重新这个topic 还是mark deleted 状态,只好换一个topic用了。
     

    主要的设计元素

    Kafka之所以和其它绝大多数信息系统不同,是因为下面这几个为数不多的比较重要的设计决策:

    1. Kafka在设计之时为就将持久化消息作为通常的使用情况进行了考虑。
    2. 主要的设计约束是吞吐量而不是功能。
    3. 有关哪些数据已经被使用了的状态信息保存为数据使用者(consumer)的一部分,而不是保存在服务器之上。
    4. Kafka是一种显式的分布式系统。它假设,数据生产者(producer)、代理(brokers)和数据使用者(consumer)分散于多台机器之上。
     
    配置优化
    server.properties中所有配置参数说明(解释)如下列表:

    参数

    说明(解释)

    broker.id =0

    每一个broker在集群中的唯一表示,要求是正数。当该服务器的IP地址发生改变时,broker.id没有变化,则不会影响consumers的消息情况

    log.dirs=/data/kafka-logs

    kafka数据的存放地址,多个地址的话用逗号分割,多个目录分布在不同磁盘上可以提高读写性能  /data/kafka-logs-1,/data/kafka-logs-2

    port =9092

    broker server服务端口

    message.max.bytes =6525000

    表示消息体的最大大小,单位是字节

    num.network.threads =4

    broker处理消息的最大线程数,一般情况下数量为cpu核数

    num.io.threads =8

    broker处理磁盘IO的线程数,数值为cpu核数2倍

    background.threads =4

    一些后台任务处理的线程数,例如过期消息文件的删除等,一般情况下不需要去做修改

    queued.max.requests =500

    等待IO线程处理的请求队列最大数,若是等待IO的请求超过这个数值,那么会停止接受外部消息,应该是一种自我保护机制。

    host.name

    broker的主机地址,若是设置了,那么会绑定到这个地址上,若是没有,会绑定到所有的接口上,并将其中之一发送到ZK,一般不设置

    socket.send.buffer.bytes=100*1024

    socket的发送缓冲区,socket的调优参数SO_SNDBUFF

    socket.receive.buffer.bytes =100*1024

    socket的接受缓冲区,socket的调优参数SO_RCVBUFF

    socket.request.max.bytes =100*1024*1024

    socket请求的最大数值,防止serverOOM,message.max.bytes必然要小于socket.request.max.bytes,会被topic创建时的指定参数覆盖

    log.segment.bytes =1024*1024*1024

    topic的分区是以一堆segment文件存储的,这个控制每个segment的大小,会被topic创建时的指定参数覆盖

    log.roll.hours =24*7

    这个参数会在日志segment没有达到log.segment.bytes设置的大小,也会强制新建一个segment会被 topic创建时的指定参数覆盖

    log.cleanup.policy = delete

    日志清理策略选择有:delete和compact主要针对过期数据的处理,或是日志文件达到限制的额度,会被 topic创建时的指定参数覆盖

    log.retention.minutes=300

    log.retention.hours=24

    数据文件保留多长时间, 存储的最大时间超过这个时间会根据log.cleanup.policy设置数据清除策略

    log.retention.bytes和log.retention.minutes或log.retention.hours任意一个达到要求,都会执行删除

    有2删除数据文件方式:

          按照文件大小删除:log.retention.bytes

      按照2中不同时间粒度删除:分别为分钟,小时

    log.retention.bytes=-1

    topic每个分区的最大文件大小,一个topic的大小限制 =分区数*log.retention.bytes。-1没有大小限log.retention.bytes和log.retention.minutes任意一个达到要求,都会执行删除,会被topic创建时的指定参数覆盖

    log.retention.check.interval.ms=5minutes

    文件大小检查的周期时间,是否处罚 log.cleanup.policy中设置的策略

    log.cleaner.enable=false

    是否开启日志清理

    log.cleaner.threads = 2

    日志清理运行的线程数

    log.cleaner.io.max.bytes.per.second=None

    日志清理时候处理的最大大小

    log.cleaner.dedupe.buffer.size=500*1024*1024

    日志清理去重时候的缓存空间,在空间允许的情况下,越大越好

    log.cleaner.io.buffer.size=512*1024

    日志清理时候用到的IO块大小一般不需要修改

    log.cleaner.io.buffer.load.factor =0.9

    日志清理中hash表的扩大因子一般不需要修改

    log.cleaner.backoff.ms =15000

    检查是否处罚日志清理的间隔

    log.cleaner.min.cleanable.ratio=0.5

    日志清理的频率控制,越大意味着更高效的清理,同时会存在一些空间上的浪费,会被topic创建时的指定参数覆盖

    log.cleaner.delete.retention.ms =1day

    对于压缩的日志保留的最长时间,也是客户端消费消息的最长时间,同log.retention.minutes的区别在于一个控制未压缩数据,一个控制压缩后的数据。会被topic创建时的指定参数覆盖

    log.index.size.max.bytes =10*1024*1024

    对于segment日志的索引文件大小限制,会被topic创建时的指定参数覆盖

    log.index.interval.bytes =4096

    当执行一个fetch操作后,需要一定的空间来扫描最近的offset大小,设置越大,代表扫描速度越快,但是也更好内存,一般情况下不需要搭理这个参数

    log.flush.interval.messages=None

    例如log.flush.interval.messages=1000

    表示每当消息记录数达到1000时flush一次数据到磁盘

    log文件”sync”到磁盘之前累积的消息条数,因为磁盘IO操作是一个慢操作,但又是一个”数据可靠性"的必要手段,所以此参数的设置,需要在"数据可靠性"与"性能"之间做必要的权衡.如果此值过大,将会导致每次"fsync"的时间较长(IO阻塞),如果此值过小,将会导致"fsync"的次数较多,这也意味着整体的client请求有一定的延迟.物理server故障,将会导致没有fsync的消息丢失.

    log.flush.scheduler.interval.ms =3000

    检查是否需要固化到硬盘的时间间隔

    log.flush.interval.ms = None

    例如:log.flush.interval.ms=1000

    表示每间隔1000毫秒flush一次数据到磁盘

    仅仅通过interval来控制消息的磁盘写入时机,是不足的.此参数用于控制"fsync"的时间间隔,如果消息量始终没有达到阀值,但是离上一次磁盘同步的时间间隔达到阀值,也将触发.

    log.delete.delay.ms =60000

    文件在索引中清除后保留的时间一般不需要去修改

    log.flush.offset.checkpoint.interval.ms =60000

    控制上次固化硬盘的时间点,以便于数据恢复一般不需要去修改

    auto.create.topics.enable =true

    是否允许自动创建topic,若是false,就需要通过命令创建topic

    default.replication.factor =1

    是否允许自动创建topic,若是false,就需要通过命令创建topic

    num.partitions =1

    每个topic的分区个数,若是在topic创建时候没有指定的话会被topic创建时的指定参数覆盖

    以下是kafka中Leader,replicas配置参数

    controller.socket.timeout.ms =30000

    partition leader与replicas之间通讯时,socket的超时时间

    controller.message.queue.size=10

    partition leader与replicas数据同步时,消息的队列尺寸

    replica.lag.time.max.ms =10000

    replicas响应partition leader的最长等待时间,若是超过这个时间,就将replicas列入ISR(in-sync replicas),并认为它是死的,不会再加入管理中

    replica.lag.max.messages =4000

    如果follower落后与leader太多,将会认为此follower[或者说partition relicas]已经失效

    ##通常,在follower与leader通讯时,因为网络延迟或者链接断开,总会导致replicas中消息同步滞后

    ##如果消息之后太多,leader将认为此follower网络延迟较大或者消息吞吐能力有限,将会把此replicas迁移

    ##到其他follower中.

    ##在broker数量较少,或者网络不足的环境中,建议提高此值.

    replica.socket.timeout.ms=30*1000

    follower与leader之间的socket超时时间

    replica.socket.receive.buffer.bytes=64*1024

    leader复制时候的socket缓存大小

    replica.fetch.max.bytes =1024*1024

    replicas每次获取数据的最大大小

    replica.fetch.wait.max.ms =500

    replicas同leader之间通信的最大等待时间,失败了会重试

    replica.fetch.min.bytes =1

    fetch的最小数据尺寸,如果leader中尚未同步的数据不足此值,将会阻塞,直到满足条件

    num.replica.fetchers=1

    leader进行复制的线程数,增大这个数值会增加follower的IO

    replica.high.watermark.checkpoint.interval.ms =5000

    每个replica检查是否将最高水位进行固化的频率

    controlled.shutdown.enable =false

    是否允许控制器关闭broker ,若是设置为true,会关闭所有在这个broker上的leader,并转移到其他broker

    controlled.shutdown.max.retries =3

    控制器关闭的尝试次数

    controlled.shutdown.retry.backoff.ms =5000

    每次关闭尝试的时间间隔

    leader.imbalance.per.broker.percentage =10

    leader的不平衡比例,若是超过这个数值,会对分区进行重新的平衡

    leader.imbalance.check.interval.seconds =300

    检查leader是否不平衡的时间间隔

    offset.metadata.max.bytes

    客户端保留offset信息的最大空间大小

    kafka中zookeeper参数配置

    zookeeper.connect = localhost:2181

    zookeeper集群的地址,可以是多个,多个之间用逗号分割hostname1:port1,hostname2:port2,hostname3:port3

    zookeeper.session.timeout.ms=6000

    ZooKeeper的最大超时时间,就是心跳的间隔,若是没有反映,那么认为已经死了,不易过大

    zookeeper.connection.timeout.ms =6000

    ZooKeeper的连接超时时间

    zookeeper.sync.time.ms =2000

    ZooKeeper集群中leader和follower之间的同步实际那

    配置优化都是修改server.properties文件中参数值
    1.网络和io操作线程配置优化
    # broker处理消息的最大线程数
    num.network.threads=xxx
    # broker处理磁盘IO的线程数
    num.io.threads=xxx
    建议配置:
    一般num.network.threads主要处理网络io,读写缓冲区数据,基本没有io等待,配置线程数量为cpu核数加1.
    num.io.threads主要进行磁盘io操作,高峰期可能有些io等待,因此配置需要大些。配置线程数量为cpu核数2倍,最大不超过3倍.

    2.log数据文件刷新策略
    为了大幅度提高producer写入吞吐量,需要定期批量写文件。
    建议配置:
    # 每当producer写入10000条消息时,刷数据到磁盘
    log.flush.interval.messages=10000
    # 每间隔1秒钟时间,刷数据到磁盘
    log.flush.interval.ms=1000

    3.日志保留策略配置
    当kafka server的被写入海量消息后,会生成很多数据文件,且占用大量磁盘空间,如果不及时清理,可能磁盘空间不够用,kafka默认是保留7天。
    建议配置:
    # 保留三天,也可以更短 
    log.retention.hours=72
    # 段文件配置1GB,有利于快速回收磁盘空间,重启kafka加载也会加快(如果文件过小,则文件数量比较多,
    # kafka启动时是单线程扫描目录(log.dir)下所有数据文件)
    log.segment.bytes=1073741824

    4.配置jmx服务
    kafka server中默认是不启动jmx端口的,需要用户自己配置
    vim bin/kafka-run-class.sh
    #最前面添加一行
    JMX_PORT=8060
     
      kafka读写的单位是partition,因此,将一个topic拆分为多个partition可以提高吞吐量。但是,这里有个前提,就是不同partition需       要位于不同的磁盘(可以在同一个机器)。如果多个partition位于同一个磁盘,那么意味着有多个进程同时对一个磁盘的多个文         件进行读写,使得操作系统会对磁盘读写进行频繁调度,也就是破坏了磁盘读写的连续性。
          在linkedlin的测试中,每台机器就加载了6个磁盘,并且不做raid,就是为了充分利用多磁盘并发读写,又保证每个磁盘连续读写       的特性。
           
          具体配置上,是将不同磁盘的多个目录配置到broker的log.dirs,例如
          log.dirs=/disk1/kafka-logs,/disk2/kafka-logs,/disk3/kafka-logs
          kafka会在新建partition的时候,将新partition分布在partition最少的目录上,因此,一般不能将同一个磁盘的多个目录设置到log.dirs
     
    1. kafka直接推送日志文件:tail -n 0 -f /www/nh-nginx02/access.log | bin/kafka-console-producer.sh --broker-list 192.168.1.1:9092 --topic sb-nginx03
     
     一旦你消费过返些数据,那你就无法再次用同一个groupid消费同一组数据了。我已经把结论说出来了,要消费同一组数据,你可以采用丌同的group
     
    kafka分区管理:
     
    增加分区:add_partition.sh 
    cd `dirname $0`
    TOPIC=$1
    PARTITIONS=$2
    bin/kafka-topics.sh --zookeeper zk2.sea:2181  --alter --partitions ${PARTITIONS} --topic ${TOPIC}
     
    增加节点:get_add_node_json.sh 
    cd `dirname $0`
    TOPIC=$1
    #TOPIC=soa_logs
    BROKER_LIST=$2
    #BROKER_LIST="173,154,155"
    ZK=zk1.sea:2181
    JSON=migration-${TOPIC}.json
    echo "{"topics": [ { "topic": "${TOPIC}" } ], "version":1}" > ${JSON}
    bin/kafka-reassign-partitions.sh --zookeeper $ZK --topics-to-move-json-file ${JSON} --broker-list ${BROKER_LIST} --generate
     
    执行get_add_node_json.sh生成json字符串 ,写到migration-log173_v1_new.json
     
    重新分配节点:set_add_node_json.sh 
    cd `dirname $0`
    TOPIC=$1
    NEW_JSON=migration-${TOPIC}_new.json
    bin/kafka-reassign-partitions.sh --zookeeper zk2.sea:2181 --reassignment-json-file ${NEW_JSON} --execute
     
    增加replication factor ,修改副本数量,kafka HA 
    partition 0的replica数从1增长到3,当前replica存在broker5,在broker6,7上增加replica
    cat increase-replication-factor.json
    {"version":1, "partitions":[{"topic":"foo","partition":0,"replicas":[5,6,7]}]}
    bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 --reassignment-json-file increase-replication-factor.json --execute
     
    kafka容量规划:
    对于普通量级数据,一天几百万~几千万的数据量,只需要0个分区,2个副本做高可用,为保证磁盘连续读写特性,最好单独提供磁盘只做kafka数据存储,一个分区一个磁盘
    bin/kafka-topics.sh --zookeeper zk1:2181 --create --topic test0 --partitions 0 --replication-factor 2
    保证消息的顺序,那就用一个 partition 。 kafka 的每个 partition 只能同时被同一个 group 中的一个 consumer 消费
  • 相关阅读:
    常用知识点集合
    LeetCode 66 Plus One
    LeetCode 88 Merge Sorted Array
    LeetCode 27 Remove Element
    LeetCode 26 Remove Duplicates from Sorted Array
    LeetCode 448 Find All Numbers Disappeared in an Array
    LeetCode 219 Contains Duplicate II
    LeetCode 118 Pascal's Triangle
    LeetCode 119 Pascal's Triangle II
    LeetCode 1 Two Sum
  • 原文地址:https://www.cnblogs.com/langke93/p/6517266.html
Copyright © 2011-2022 走看看