kafka基本原理概述——patition与replication分配

zoukankan html css js c++ java

kafka基本原理概述——patition与replication分配
kafka一直在大数据中承受着数据的压力也扮演着对数据维护转换的角色，下面重点介绍kafka大致组成及其partition副本的分配原则：

文章参考: http://www.linkedkeeper.com/detail/blog.action?bid=1016

Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

Kafka主要设计目标如下：
- 以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能。
- 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条(也就是100000条——十万)消息的传输。
- 支持Kafka Server间的消息分区，及分布式消费，同时保证每个partition内的消息顺序传输。
- 同时支持离线数据处理和实时数据处理。
Kafka专用术语：
- Broker：消息中间件处理结点，一个Kafka节点就是一个broker，多个broker可以组成一个Kafka集群。
- Topic：一类消息，Kafka集群能够同时负责多个topic的分发。
- Partition：topic物理上的分组，一个topic可以分为多个partition，每个partition是一个有序的队列。
- Segment：partition物理上由多个segment组成。
- offset：每个partition都由一系列有序的、不可变的消息组成，这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序列号叫做offset，用于partition唯一标识一条消息
topic & partition

　　在Kafka文件存储中，同一个topic下有多个不同partition，每个partition为一个目录，partiton命名规则为topic名称+有序序号，第一个partiton序号从0开始，序号最大值为partitions数量减1。

　　这里也就是broker——>topic——>partition——>segment

　　segment file组成：由2大部分组成，分别为index file和data file，此2个文件一一对应，成对出现，后缀".index"和“.log”分别表示为segment索引文件、数据文件。

　　

　　segment文件命名规则：partion全局的第一个segment从0开始，后续每个segment文件名为上一个segment文件最后一条消息的offset值。数值最大为64位long大小，19位数字字符长度，没有数字用0填充。

　　segment中index与data file对应关系物理结构如下：

　　　　　　

　　索引文件存储大量元数据，数据文件存储大量消息，索引文件中元数据指向对应数据文件中message的物理偏移地址。

　　其中以索引文件中元数据3,497为例，依次在数据文件中表示第3个message（在全局partiton表示第368772个message），以及该消息的物理偏移地址为497。

　　

副本（replication）策略　

　 1.数据同步

　　　　kafka 0.8后提供了Replication机制来保证Broker的failover。

　　　　引入Replication之后，同一个Partition可能会有多个Replica，而这时需要在这些Replication之间选出一个Leader，Producer和Consumer只与这个Leader交互，其它Replica作为Follower从Leader中复制数据。

　　2.副本放置策略　　

　　　　Kafka分配Replica的算法如下(注意!!! 下面的broker、partition副本数这些编号都是从0开始编号的)：

　　　　　　将所有存活的N个Brokers和待分配的Partition排序

　　　　　　将第i个Partition分配到第(i mod n)个Broker上，这个Partition的第一个Replica存在于这个分配的Broker上，并且会作为partition的优先副本( 这里就基本说明了一个topic的partition在集群上的大致分布情况 )

　　　　　　将第i个Partition的第j个Replica分配到第((i + j) mod n)个Broker上

　　　　　　假设集群一共有4个brokers，一个topic有4个partition，每个Partition有3个副本。下图是每个Broker上的副本分配情况。

　　　　　　

对于Kafka而言，定义一个Broker是否“活着”包含两个条件：
- 一是它必须维护与ZooKeeper的session（这个通过ZooKeeper的Heartbeat机制来实现）。
- 二是Follower必须能够及时将Leader的消息复制过来，不能“落后太多”。
重点在于kafka中partition的副本放置算法，同时间接说明了一个topic的partition在集群中的分配情况...
查看全文

相关阅读:
sql server 操作文件
 sql server T-sql查询执行顺序
 js 时间相关函数
 js页面：函数名 is not defined
C# 通过文件路径获取文件名
 WRAR下载及注册
 Java 中xml解析
 string 与 byte[] 互转时的注意事项
 Spring MVC表单标签
 java 中基本类型与字符串之间的互相转换

原文地址：https://www.cnblogs.com/xjh713/p/7388262.html