【基础组件5】kafka入门（一）集群搭建+常用命令+基本原理+存储分析

zoukankan html css js c++ java

【基础组件5】kafka入门（一）集群搭建+常用命令+基本原理+存储分析

一、集群搭建

集群搭建参考以下四篇：

主要是第1篇即可

https://blog.csdn.net/qq_34258346/article/details/80436599

https://blog.csdn.net/u012943767/article/details/80899202

https://www.cnblogs.com/ding2016/p/8282907.html

https://blog.csdn.net/xuexi_39/article/details/83015813

基本原理参考以下2篇：

https://mp.weixin.qq.com/s/srOzKv12pla0xJpXTx-OcA

https://www.cnblogs.com/cynchanpin/p/7339537.html

前提条件：安装好java配置好环境变量、zookeeper集群(可参考：https://blog.csdn.net/qq_34258346/article/details/80423787)
（3台服务器）
10.1.32.85 hadoop7
10.1.32.193 hadoop8
10.1.32.161 hadoop9
1、下载kafka的安装包
cd home/hadoop/app/
wget http://mirror.bit.edu.cn/apache/kafka/0.10.2.1/kafka_2.12-0.10.2.1.tgz
或者直接把包上传上去

2、解压安装包
tar -zxvf kafka_2.12-0.10.2.1.tgz

3、添加环境变量
在vi /etc/profile文件下增加
export KAFKA_HOME=/home/hadoop/app/kafka_2.12-0.10.2.1
export PATH=$KAFKA_HOME/bin:$PATH
使用source /etc/profile使配置生效
4、修改kafka配置文件
cd /home/hadoop/app/kafka_2.12-0.10.2.1/config/
用ll查看目录下的文件，发现zookeeper文件，我们可以根据Kafka内带的zk集群来启动，但是建议使用独立的zk集群。我们主要关注server.properties 这个文件即可

修改server.properties配置文件，配置如下：
broker.id=1 #当前机器在集群中的唯一标识，和zookeeper的myid性质一样
listeners=PLAINTEXT://10.1.32.85:9092 #kafka监听地址
num.network.threads=3 #这个是borker进行网络处理的线程数
num.io.threads=8 #这个是borker进行I/O处理的线程数
socket.send.buffer.bytes=102400 #发送缓冲区buffer大小，数据不是一下子就发送的，先回存储到缓冲区了到达一定的大小后在发送，能提高性能
socket.receive.buffer.bytes=102400 #kafka接收缓冲区大小，当数据到达一定大小后在序列化到磁盘
socket.request.max.bytes=104857600 #这个参数是向kafka请求消息或者向kafka发送消息的请请求的最大数，这个值不能超过java的堆栈大小
log.dirs=/tmp/kafka-logs #消息存放的目录，这个目录可以配置为“，”逗号分割的表达式，上面的num.io.threads要大于这个目录的个数这个目录，如果配置多个目录，新创建的topic他把消息持久化的地方是，当前以逗号分割的目录中，那个分区数最少就放那一个
num.partitions=1 #默认的分区数，一个topic默认1个分区数
num.recovery.threads.per.data.dir=1
log.retention.hours=168 #默认消息的最大持久化时间，168小时，7天
message.max.byte=5242880
default.replication.factor=2
replica.fetch.max.bytes=5242880
log.segment.bytes=1073741824 #这个参数是：因为kafka的消息是以追加的形式落地到文件，当超过这个值的时候，kafka会新起一个文件
log.retention.check.interval.ms=300000 #每隔300000毫秒去检查上面配置的log失效时间（log.retention.hours=168 ），到目录查看是否有过期的消息如果有，删除
zookeeper.connect=10.1.32.85:2181,10.1.32.193:2181,10.1.32.161:2181 #设置zookeeper的连接端口
zookeeper.connection.timeout.ms=6000 #连接zookeeper的超时时间

上面是参数的解释，实际的修改项为：
broker.id=1 每台服务器的broker.id都不能相同
listeners=PLAINTEXT://10.1.32.85:9092
在log.retention.hours=168下面新增下面三项
message.max.byte=5242880
default.replication.factor=2
replica.fetch.max.bytes=5242880
zookeeper.connect=10.1.32.85:2181,10.1.32.193:2181,10.1.32.161:2181 设置zookeeper的连接端口

以上是hadoop7（10.1.32.85）一台机器的配置，同理在另外两台（hadoop8（10.1.32.193）、hadoop9（10.1.32.161））机器做相应的配置

5、启动Kafka集群并测试
从后台启动Kafka集群（3台都需要启动）：
kafka-server-start.sh -daemon /home/hadoop/app/kafka_2.12-0.10.2.1/config/server.properties
————————————————
版权声明：本文为CSDN博主「path哥」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_34258346/article/details/80436599

二、常用命令

1.创建topic

./kafka-topics.sh --zookeeper 100.168.222.17:2181,100.168.222.18:2181,100.168.222.19:2181/kafka --replication-factor 2 --partitions 1 --create --topic metric

2.查看topic

./kafka-topics.sh --zookeeper 100.168.222.17:2181,100.168.222.18:2181,100.168.222.19:2181/kafka --list

3.删除topic

./kafka-topics.sh --zookeeper 100.168.222.17:2181,100.168.222.18:2181,100.168.222.19:2181/kafka --delete --topic metric

4.创建生产者（插入数据）

./kafka-console-producer --broker-list 100.168.222.17:9092,100.168.222.18:9092,100.168.222.19:9092 --topic metric

5.创建消费者（老消费者）

./kafka-console-consumer.sh --zookeeper 100.168.222.17:2181,100.168.222.18:2181,100.168.222.19:2181/kafka --topic test --from-beginning

6.创建消费者（新消费者）

./kafka-console-consumer --bootstrap-server 100.168.222.17:9092,100.168.222.18:9092,100.168.222.19:9092 --topic metric

kafka中有两个设置的地方：对于老的消费者，由--zookeeper参数设置；对于新的消费者，由--bootstrap-server参数设置

四、kafka的原理、基本流程

二、Kafka基本架构

它的架构包括以下组件：

1、话题（Topic）：是特定类型的消息流。消息是字节的有效负载（Payload），话题是消息的分类名或种子（Feed）名；

2、生产者（Producer）：是能够发布消息到话题的任何对象；

3、服务代理（Broker）：已发布的消息保存在一组服务器中，它们被称为代理（Broker）或Kafka集群；

4、消费者（Consumer）：可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息；

上图中可以看出，生产者将数据发送到Broker代理，Broker代理有多个话题topic，消费者从Broker获取数据。

四、Zookeeper在kafka的作用

简单说下整个系统运行的顺序：

（1）启动zookeeper 的 server

（2）启动kafka 的 server

（3）Producer 如果生产了数据，会先通过 zookeeper 找到 broker，然后将数据存放到 broker

（4）Consumer 如果要消费数据，会先通过 zookeeper 找对应的 broker，然后消费。

五、kafka的存储机制（拓展篇，可不看）

https://www.cnblogs.com/cynchanpin/p/7339537.html

查看全文

相关阅读:
程序员的7中武器
 需要强化的知识
 微软中国联合小i推出MSN群Beta 不需任何插件
 XML Notepad 2006 v2.0
Sandcastle August 2006 Community Technology Preview
[推荐] TechNet 广播 SQL Server 2000完结篇
 《太空帝国 4》(Space Empires IV)以及 xxMod 英文版中文版 TDM Mod 英文版中文版
 IronPython 1.0 RC2 更新 1.0.60816
Microsoft .NET Framework 3.0 RC1
《Oracle Developer Suite 10g》(Oracle Developer Suite 10g)V10.1.2.0.2

原文地址：https://www.cnblogs.com/Agnes1994/p/12218575.html

【基础组件5】kafka入门（一）集群搭建+常用命令+基本原理+存储分析

二、Kafka基本架构

四、Zookeeper在kafka的作用