一、Kafka的Topic主题
Topic主题用来区分不同类型的消息,实际也就是适用于不同的业务场景,默认消息保存一周时间;
同一个Topic主题下,默认是一个partition分区,也就是只能有一个消费者来消费,如果想提升消费能力,就需要增加分区;
同一个Topic的多个分区,可以有三种方式分派消息(key,value)到不同的分区,指定分区、HASH路由、默认,同一个分区内的消息ID唯一、自增、顺序;
消费者消费partition分区内的消息时,是通过offsert来标识消费的位置,消费掉的消息并不会立刻删除;
二、重复消费或多消费者
GroupId用来解决同一个Topic主题下重复消费问题,比如一条消费需要多个消费者接收到,就可以通过设置不同的GroupId实现;
实际消息是存一份的,只是通过逻辑上设置标识来区分,系统会记录Topic主题下--》GroupId分组下--》partition分区下的offsert,来标识是否消费过。
三、发送消息的高可用
采用集群模式,多副本方式实现;一条消息的提交,可能通过设置acks标识实现不同的可用性,
=0时,发送成功就OK;
=1时,master成功响应才OK,
=all时,一半以上的响应才OK(真正的高可用)
四、消费消息的高可用
通过关闭自动标识offsert模式,先拉取消息,消费完成后,再去设置offsert位置,来解决消费高可用;
生产消费端需要幂等设计,防止确认失败,而造成的消息重复;
五、Kafka高性能的原因
单个partition内的消息是顺序读写,先进先出,消息ID是自增长,按ID分段成不同所Segment文件存储,检索快速;
内存读写是零拷贝,使用了Linux的sendfile技术,减了用户态与内核态的内存拷贝移动次数;