zoukankan      html  css  js  c++  java
  • (二)kafka

    内容:

    1. kafka的核心概念

    Topic:主题

    Partition:分区

      分区具体在服务器上面表现为其实就是一个目录

    一个主题下面,有多个分区,这些分区会存储到不同的kafka的服务器上面

    或者我们可以这样说:其实就是在不同的主机上面建了不同目录

    Producer:生产者

    Consumer:消费者

    Replica:就是kafka的副本,kafka的partition为了保证数据安全,所以每个分区partition可以 设置多个副本

        但是这些副本之间是有角色之分的,其中有一个是leader partition(replica之一),其余都是follower。

        我们的生产者生产数据的时候,是把数据发送到leader parition(leader replica)里面

        然后follower partition(follower replica)去leader partition那自己去同步数据。

        我们消费者消费数据的时候,也是从leader partition这去消费数据。

    Consumer Group:消费者组,我们在消费数据的时候,会在代码里面指定一个group.id

      conf.setProperty(“group.id”,“testa”)

      group.id代表是一个消费组的名字。

    如果多个消费者,多个消费者并行的消费,性能是很好

    consumer grooup:testD

      consumer1

      consumer2

      consumer3

    他们三个消费者要同时去消费TopicB(3个分区)

    注意:一个分区,不会让同一个消费组里面的多个消费者消费的。

        一个消费者是可以消费多个分区的数据的

    Controller:

      在大数据里面,这些分布式的文件系统,95%都是主从式的结构,有个别的是对等式的架构(es)

    我们的kafka也是主从的脚骨,主节点叫controller,其余的就是从节点

    /controller/

    如何从broker节点,选举一个作为controller?

    所有的服务器(broker节点)都往Zookeeper上注册

    /brokers/ids/0,1,2(以各个broker编号命名)

    谁先注册上,创建一个目录

    /controller/->0 则0就是主节点(controller),则其他的为从节点

    创建一个TopicA主题,3个分区,指定每个分区有3个副本(副本指定2个是比较好的)设计一个分布式的系统,
    集群里面有服务器宕机,这是一个常态化的事 (kafka0.8之前,没有副本机制) 生产者发送数据到TopicA
    -0(Leader) 消费者消费数据到TopicA-0(Leader) *****************************Kafka集群**************************************** -----------------------------------------------------------------------------------| Broker0 TopicA-0(leader) TopicA-1 TopicA-2 -----------------------------------------------------------------------------------| Broker1 TopicA-1(leader) TopicA-0(follower) 去 TopicA-0(leader)同步数据 TopicA-2 -----------------------------------------------------------------------------------| Broker2 TopicA-2(leader) TopicA-0(follower) TopicA-1 -----------------------------------------------------------------------------------|

    2. kafka和Zookeeper之间是如何配合工作

    3. 性能好在什么地方

    kafka:一个支持,高并发,高性能,高可用,可伸缩的消息系统

    3.1 kafka的设计,数据其实存储在磁盘上面的

      顺序写:kafka仅仅是追加数据到文件末尾,磁盘顺序写,性能极高

      随机写:随机在文件的某个位置修改数据

    3.2 零拷贝

    3.3 日志分段存储(log默认是一个G)

      前面三个保证的是高性能

    3.4 kafka的网络设计(这个跟调优有关)

      kafka为什么支持高并发,其实很大的一个原因是跟网络这有关系

    ①客户端发送消费者/生产者

    ②Accepter (把接受的请求封装成socketchannel,轮询发送到Processor)

    ③kafka默认3个Processor(调优,增大Processor数量)

    Processor

      socketchannel socketchannel socketchannel

    Processor

      socketchannel socketchannel socketchannel

    Processor

      socketchannel socketchannel socketchannel

     

    ④多个Processor将sockechannel发送到队列,组成Request队列

    Request Request Request

    ⑤线程池(解析Request请求,写磁盘或者读磁盘) 调优(增大线程数)

    默认8个线程

    线程

    线程

    线程

    线程

    线程

    线程

    线程

    线程

    处理是否完成,响应队列,默认3个队列

    线程:response(响应)给Processor

    线程:response

    线程:response

    写:顺序写

    读:零拷贝

    4. 搭建一个kafka集群

    5. 如何去评估一个集群的资源

      2,8法则

  • 相关阅读:
    4天精通arcgis
    性能优化紧急回顾笔记
    linux下oracle导入dmp文件
    centos虚拟机复制后网络重启出错解决
    redhat ent 6.5 virtualbox虚拟机通过桥接方式配置主机-虚拟机的局域网
    SVN的搭建及使用(三)用TortoiseSVN修改文件,添加文件,删除文件,以及如何解决冲突,重新设置用户名和密码等
    SVN 的搭建及使用(二)VisualSVN Server建立版本库,以及VisualSVN和TortoiseSVN的使用
    SVN 的搭建及使用(一)下载和搭建SVN服务器
    Visual Studio 2008常见问题
    .net 学习路线感想(转)
  • 原文地址:https://www.cnblogs.com/hanchaoyue/p/13296439.html
Copyright © 2011-2022 走看看