kafka--知识点

zoukankan html css js c++ java

kafka--知识点
解耦、流量消峰

kafka   分布式，基于zookeeper协调的分布式消息系统，支持分区（partition）多副本(replica)

每秒10万的吞吐量，零拷贝，不经过内存，没有遵守 jms规范

端口默认9092

中文文档

http://kafka.apachecn.org/

1、消费者 producer

自己决定向哪个partition生产消息，两种机制：hash,轮询

2、partiton    分区

一个topic分成多个partition

每个partition内部消息强有序，其中每个消息都有一个序号叫offset

一个partition 只对应一个broker,一个broker可以管多个partition

消息直接写入文件，并不是存储在内容中

根据时间策略（默认一周）删除，而不是消费完就删除

consumer一次只能从一个分区 partition读消息

每个partition中的消息是强有序的

但是多个consumer 并发从partiton读消息不是整体消息有序的

partition 可已有副本

3、消费者   consumer

consumer自己维护消费到那个offset

每个consumer都有对应的group

同一个组内的consumer只能消费不同的partition，不能共同消费一个partition（除非这个consumer掉了）,但是不同组内可以，一个消息在group内只能消费一次

4、topic

一类消息总成（一个消息队列）

5、broker   kafka集群节点，没有主从关系，通过zookeeper管理，broker负责消息的读写和存储

一个broker可以管理多个partition

创建消息

kafka-topics.sh --zookeeper node3:2181,node4,node5 --create --topic t001 --partitions 3 --replication-factor 3

Kafaka connect

Kafaka connect 是一种用于在Kafka和其他系统之间可扩展的、可靠的流式传输数据的工具。它使得能够快速定义将大量数据集合移入和移出Kafka的连接器变得简单。Kafka Connect可以从数据库或应用程序服务器收集数据到Kafka topic，使数据可用于低延迟的流处理。导出作业可以将数据从Kafka topic传输到二次存储和查询系统，或者传递到批处理系统以进行离线分析。

Kafaka connect的核心组件：
Source：负责将外部数据写入到kafka的topic中。
Sink：负责从kafka中读取数据到自己需要的地方去，比如读取到HDFS，hbase等。

Connectors ：通过管理任务来协调数据流的高级抽象
Tasks：数据写入kafk和从kafka中读出数据的具体实现，source和sink使用时都需要Task

Workers：运行connectors和tasks的进程

安装
```
tar zxvf kafka_2.10-0.9.0.0.tgz 
```
2、Kafka目录介绍
- /bin 操作kafka的可执行脚本，还包含windows下脚本
- /config 配置文件所在目录
- /libs 依赖库目录
- /logs 日志数据目录，目录kafka把server端日志分为5种类型，分为:server,request,state，log-cleaner，controller
3、配置
- 配置zookeeper
请参考zookeeper
- 进入kafka安装工程根目录编辑config/server.properties
kafka最为重要三个配置依次为：broker.id、log.dir、zookeeper.connect，kafka server端config/server.properties参数说明和解释如下:

server.properties配置属性说明

4、启动Kafka

启动Zookeeper
bin/zookeeper-server-start.sh config/zookeeper.properties &
启动kafka
bin/kafka-server-start.sh config/server.properties
创建topic
bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic rokid

副本不能大于当前broker节点数

查看kafka的topic中的内容
bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic rokid
- 启动
```
进入kafka目录，敲入命令 bin/kafka-server-start.sh config/server.properties &
```
- 检测2181与9092端口
```
netstat -tunlp|egrep "(2181|9092)"
tcp        0      0 :::2181                     :::*                        LISTEN      19787/java          
tcp        0      0 :::9092                     :::*                        LISTEN      28094/java 
```
后台运行
./kafka-server-start.sh -daemon ../config/server.properties
说明：

Kafka的进程ID为28094，占用端口为9092

消费者消费消息

重复消息

消息丢失

自动提交默认消费者消费完消息自动提交调用poll后每5秒提交一次offset，可能会导致重复消费

解决办法消费端自己做业务处理，进行消息去重

手动提交

异步提交：消息量非常大，业务允许重复消息，可能丢失

都可能导致重复消费

消息回溯 seek()，可指定进行消费，丢了之后再消费

再均衡
查看全文

相关阅读:
sql 连表
 Laravel 数据验证
 zend studio 破解、汉化和字体颜色及快捷键相关设置
 关于storm的一些知识点
 storm架构原理及集群部署
 storm使用过程中出现的错误：Caused by: java.net.UnknownHostException: storm: 未知的名称或服务
 ElasticSearch基础知识
 ElasticSearch java客户端更新时出现的错误：NoNodeAvailableException[None of the configured nodes are available
sublime text3 注册码 (Version 3.0)
使用HTMLTestRunner生产报告

原文地址：https://www.cnblogs.com/jentary/p/12341030.html

2、Kafka目录介绍

3、配置

4、启动Kafka