zoukankan      html  css  js  c++  java
  • kafka文件存储结构和如何保证数据不丢失

    一: kafka文件组成

    基本组成:

    1- broker 节点,多个broker构成一个集群

    2- topic 对消息进行归类

    3- producer 生产者

    4- comsumer 消费者

    5- consumerGroup 消费组

    topic的组成:

    1- partition  物理上数据存储的概念,一个topic包含多个partition,每个partition内部是有序的;每个partition是一个目录;

    2- segment  一个partition包含多个segment,包含两种文件.index和.log。

    这两个文件的命令规则为:partition全局的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset值,数值大小为64位,20位数字字符长度,没有数字用0填充,如下:

    00000000000000000000.index
    00000000000000000000.log
    00000000000000170410.index
    00000000000000170410.log
    00000000000000239430.index
    00000000000000239430.log

    index索引文件存储大量的元数据,log数据文件存储大量的消息。

    partition内部读取数据的流程为(例如读取offset=170418的消息):

    1- 首先查找segment文件。确认数据存储在00000000000000170410.index和00000000000000170410.log这两个文件中。

    2- 到index文件中查找,log数据存贮的位置信息。

    3- 从log日志中读取所需日志信息。

    二:数据可靠性和持久性保证

    1- producer端

    request.required.acks参数进行配置,可靠性级别为:

    1(默认) producer写到kafka中,收到leader的反馈信息后,下确认其写入成功。leader宕机,会丢失数据。

    0 producer端不会收到任何的反馈信息,数据可靠性很低。

    -1 producer端需要确认leader和follower都反馈成功,才认为写入成功。和min.insync.replicas参数(最小同步副本数,必须大于等于2)一起使用。利用副本冗余信息来确保数据不会丢失。但是可以会重复传输。

    2- comsumer端

    producer.type=sync一定要设置成同步的方式。

    consumer先读取消息并处理,在commit。这种方式可以保证至少一次;

    consumer 先读取消息,再commit,在处理,这种方式会丢失数据;

    3- 自定义实现,缓存消息去重

     Consumer保持无状态和幂等性就可以了

  • 相关阅读:
    网络编程-TCP/IP各层介绍(5层模型讲解)
    TCP、UDP数据包大小的限制
    NAT(地址转换技术)详解(转载)
    用户访问网站基本流程及原理(转载)
    python网络编程相关
    python基础学习笔记——网络编程(协议篇)
    详解Python中的相对导入和绝对导入
    当列表推导式遇到lambda(匿名函数)
    python单例模式的几种实现方法
    用python将多个文档合成一个
  • 原文地址:https://www.cnblogs.com/parent-absent-son/p/10863861.html
Copyright © 2011-2022 走看看