18 Kafka的理解

zoukankan html css js c++ java

18 Kafka的理解
一、 Kafka概述

1-1 Kafka是什么

在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。
　　1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。
　　2）Kafka最初是由LinkedIn公司开发，并于 2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。
　　3）Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)成为broker。
　　4）无论是kafka集群，还是producer和consumer都依赖于zookeeper集群保存一些meta信息，来保证系统可用性。

1-2 消息队列内部实现原理

（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）
　　点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。
（2）发布/订阅模式（一对多，数据生产后，推送给所有订阅者）
　　发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者，临时订阅者只在主动监听主题时才接收消息，而持久订阅者则监听主题的所有消息，即使当前订阅者不可用，处于离线状态。

1-3 为什么需要消息队列

1）解耦：
允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。
2）冗余：
消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。
3）扩展性：
因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。
4）灵活性 & 峰值处理能力：
在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。
5）可恢复性：
系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。
6）顺序保证：
在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。（Kafka保证一个Partition内的消息的有序性）
7）缓冲：
有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。
8）异步通信：
很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

1-4 Kafka架构

1）Producer ：消息生产者，就是向kafka broker发消息的客户端。
2）Consumer ：消息消费者，向kafka broker取消息的客户端
3）Topic ：可以理解为一个队列。
4） Consumer Group （CG）：这是kafka用来实现一个topic消息的广播（发给所有的consumer）和单播（发给任意一个consumer）的手段。一个topic可以有多个CG。topic的消息会复制（不是真的复制，是概念上的）到所有的CG，但每个partion只会把消息发给该CG中的一个consumer。如果需要实现广播，只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic。
5）Broker ：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。
6）Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个partition间）的顺序。
7）Offset：kafka的存储文件都是按照offset.kafka来命名，用offset做名字的好处是方便查找。例如你想找位于2049的位置，只要找到2048.kafka的文件即可。当然the first offset就是00000000000.kafka

二、Kafka环境安装

1. Kafka源码包下载

http://mirror.bit.edu.cn/apache/kafka/

2. 下载软件包
```
#Master
wget http://mirror.bit.edu.cn/apache/kafka/1.1.1/kafka_2.11-1.1.1.tgz
tar zxvf kafka_2.11-1.1.1.tgz
```
3. 修改Kafka配置文件
```
cd kafka_2.11-1.1.1/config
vim server.properties
```
log.dirs=/tmp/kafka-logs
zookeeper.connect=master:2181,slave1:2181,slave2:2181

4. 增加环境变量
```
#Master、Slave1、Slave2
vim ~/.bashrc
```
export KAFKA_HOME=/usr/local/src/kafka_2.11-1.1.1
export PATH=$KAFKA_HOME/bin:$PATH
刷新环境变量source ~/.bashrc

5. 拷贝软件包
```
scp -r /usr/local/src/kafka_2.11-1.1.1 root@slave1:/usr/local/src/kafka_2.11-1.1.1
scp -r /usr/local/src/kafka_2.11-1.1.1 root@slave2:/usr/local/src/kafka_2.11-1.1.1
```
6. 修改Kafka配置文件
```
#Master
vim config/server.properties
broker.id=0

#Slave1
vim config/server.properties
broker.id=1

#Slave2
vim config/server.properties
broker.id=2
```
7. 如果启动了Zookeeper集群则跳过此步骤
```
zkServer.sh start
zkServer.sh status 
```
8.启动Kafka集群
```
#Master、Slave1、Slave2
vim /usr/local/src/kafka_2.11-1.1.1/bin/start-kafka.sh
```
/usr/local/src/kafka_2.11-1.1.1/bin/kafka-server-start.sh /usr/local/src/kafka_2.11-1.1.1/config/server.properties
```
chmod +x /usr/local/src/kafka_2.11-1.1.1/bin/start-kafka.sh
start-kafka.sh
```
9. 进程状态
- Master
- Slave1
- Slave2
10. 关闭集群
```
kafka-server-stop.sh
```
kafkamanager使用

11. 搭建
```
unzip kafka-manager-1.3.3.7.zip
cd kafka-manager-1.3.3.7/
vim conf/application.conf
```
kafka-manager.zkhosts="192.168.192.10:2181,192.168.192.11:2181,192.168.192.12:2181"

12. 启动
```
./bin/kafka-manager
#kafka-manager 默认的端口是9000，可通过 -Dhttp.port，指定端口; -Dconfig.file=conf/application.conf指定配置文件:
#nohup bin/kafka-manager -Dconfig.file=conf/application.conf -Dhttp.port=8080
```
13. 测试

点击【Cluster】>【Add Cluster】打开如下添加集群的配置界面：

输入集群的名字（如Kafka-Cluster-1）和 Zookeeper 服务器地址（如localhost:2181），选择最接近的Kafka版本（如0.10.1.0）保存

kafka topic list

kafka topic brokers

14. 管理 kafka-mamager

新建topic

三 Kafka工作流程分析

3-1 Kafka生产过程分析
- 3.1.1 写入方式
  
  producer采用推（push）模式将消息发布到broker，每条消息都被追加（append）到分区（patition）中，属于顺序写磁盘（顺序写磁盘效率比随机写内存要高，保障kafka吞吐率）。
- 3.1.2 分区（Partition）
  
  消息发送时都被发送到一个topic，其本质就是一个目录，而topic是由一些Partition Logs(分区日志)组成，其组织结构如下图所示：
  
  我们可以看到，每个Partition中的消息都是有序的，生产的消息被不断追加到Partition log上，其中的每一个消息都被赋予了一个唯一的offset值。
  
  1）分区的原因
  
  （1）方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；
  
  （2）可以提高并发，因为可以以Partition为单位读写了。
  
  2）分区的原则
  
  （1）指定了patition，则直接使用；
  
  （2）未指定patition但指定key，通过对key的value进行hash出一个patition
  
  （3）patition和key都未指定，使用轮询选出一个patition。
  
  DefaultPartitioner类
  
  public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) { List<PartitionInfo> partitions = cluster.partitionsForTopic(topic); int numPartitions = partitions.size(); if (keyBytes == null) { int nextValue = nextValue(topic); List<PartitionInfo> availablePartitions = cluster.availablePartitionsForTopic(topic); if (availablePartitions.size() > 0) { int part = Utils.toPositive(nextValue) % availablePartitions.size(); return availablePartitions.get(part).partition(); } else { // no partitions are available, give a non-available partition return Utils.toPositive(nextValue) % numPartitions; } } else { // hash the keyBytes to choose a partition return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions; } }
- 3.1.3 副本（Replication）
  
  同一个partition可能会有多个replication（对应 server.properties 配置中的 default.replication.factor=N）。没有replication的情况下，一旦broker 宕机，其上所有 patition 的数据都不可被消费，同时producer也不能再将数据存于其上的patition。引入replication之后，同一个partition可能会有多个replication，而这时需要在这些replication之间选出一个leader，producer和consumer只与这个leader交互，其它replication作为follower从leader 中复制数据
- 3.1.4 写入流程
  
  producer写入消息流程如下：
  
  1）producer先从zookeeper的 "/brokers/.../state"节点找到该partition的leader
  
  2）producer将消息发送给该leader
  
  3）leader将消息写入本地log
  
  4）followers从leader pull消息，写入本地log后向leader发送ACK
  
  5）leader收到所有ISR中的replication的ACK后，增加HW（high watermark，最后commit 的offset）并向producer发送ACK
3-2 Broker 保存消息
- 3.2.1 存储方式
  
  物理上把topic分成一个或多个patition（对应 server.properties 中的num.partitions=3配置），每个patition物理上对应一个文件夹（该文件夹存储该patition的所有消息和索引文件）。
- 3.2.2 存储策略3.2.3 Zookeeper存储结构
  
  无论消息是否被消费，kafka都会保留所有消息。有两种策略可以删除旧数据：
  
  1）基于时间：log.retention.hours=168
  
  2）基于大小：log.retention.bytes=1073741824
  
  需要注意的是，因为Kafka读取特定消息的时间复杂度为O(1)，即与文件大小无关，所以这里删除过期文件与提高 Kafka 性能无关。
- 注意：producer不在zk中注册，消费者在zk中注册。
3.3 Kafka消费过程分析

kafka提供了两套consumer API：高级Consumer API和低级API。
查看全文

相关阅读:
Traefik2.X 版本中 URL Rewrite 的使用
 图144 超音速客机
 ingressnginx 的使用 =》部署在 Kubernetes 集群中的应用暴露给外部的用户使用
 在k8s集群中安装rookceph 1.8版本步骤
 Traefik 2.0 暴露 Redis(TCP) 服务
 Traefik 2.0 实现自动化 HTTPS
Kubernetes的kubectl常用命令速记
 docker运行tomcat的war包程序，构建镜像
 使用Prometheus和Grafana监控RabbitMQ集群 (使用RabbitMQ自带插件)
使用Prometheus和Grafana监控nacos集群

原文地址：https://www.cnblogs.com/chen8023miss/p/11192918.html

1-1 Kafka是什么

1-2 消息队列内部实现原理

1-3 为什么需要消息队列

1-4 Kafka架构

二、Kafka环境安装

1. Kafka源码包下载

2. 下载软件包

3. 修改Kafka配置文件

4. 增加环境变量

5. 拷贝软件包

6. 修改Kafka配置文件

7. 如果启动了Zookeeper集群则跳过此步骤

8.启动Kafka集群

9. 进程状态

10. 关闭集群

kafkamanager使用

11. 搭建

12. 启动

13. 测试

14. 管理 kafka-mamager

三 Kafka工作流程分析

3-1 Kafka生产过程分析

3-2 Broker 保存消息

3.3 Kafka消费过程分析