zoukankan      html  css  js  c++  java
  • 监控kubernetes集群的方式

      导航:这里主要是列出一个prometheus一些系统的学习过程,最后按照章节顺序查看,由于写作该文档经历了不同时期,所以在文中有时出现

    的云环境不统一,但是学习具体使用方法即可,在最后的篇章,有一个完整的腾讯云的实战案例。

      1.什么是prometheus?

      2.Prometheus安装

      3.Prometheus的Exporter详解

      4.Prometheus的PromQL

      5.Prometheus告警处理

      6.Prometheus的集群与高可用

      7.Prometheus服务发现

      8.kube-state-metrics 和 metrics-server

      9.监控kubernetes集群的方式

      10.prometheus operator

      11.Prometheus实战之联邦+高可用+持久

      12.Prometheus实战之配置汇总

      13.Grafana简单用法

      14.Grafana SQL汇总

      15.prometheus SQL汇总

      参考:

      https://prometheus.io/docs/prometheus/latest/configuration/configuration/#kubernetes_sd_config

      https://yunlzheng.gitbook.io/prometheus-book/part-iii-prometheus-shi-zhan/readmd/use-prometheus-monitor-kubernetes

      https://www.bookstack.cn/read/prometheus_practice/introduction-README.md

      https://www.kancloud.cn/huyipow/prometheus/521184

      https://www.qikqiak.com/k8s-book/docs/

    1.Kubernetes中部署prometheus

      由于下面的演示需要用到prometheus,为了方便,首先在k8s集群中部署一个prometheus。

     

    1.1 使用ConfigMaps管理应用配置

      这里将使用ConfigMaps管理Prometheus的配置文件,创建prometheus-config.yml文件,并写入以下内容:

    cat prometheus-configmap.yml 
    apiVersion: v1
    kind: ConfigMap
    metadata:
      name: prometheus-config
      namespace: monitoring
    data:
      prometheus.yml: |
        global:
          scrape_interval:     15s 
          evaluation_interval: 15s
        scrape_configs:
          - job_name: 'prometheus'
            static_configs:
            - targets: ['localhost:9090']
         
          - job_name: 'kubernetes-kubelet'
            scheme: https
            tls_config:
              ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
            bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
            kubernetes_sd_configs:
            - role: node
           
            relabel_configs:
            - action: labelmap
              regex: __meta_kubernetes_node_label_(.+)
            - target_label: __address__
              replacement: kubernetes.default.svc:443
            - source_labels: [__meta_kubernetes_node_name]
              regex: (.+)
              target_label: __metrics_path__
              replacement: /api/v1/nodes/${1}/proxy/metrics 
    
          - job_name: 'kubernetes-cadvisor'
            scheme: https
            tls_config:
              ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
            bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
            kubernetes_sd_configs:
            - role: node
    
            relabel_configs:
            - target_label: __address__
              replacement: kubernetes.default.svc:443
            - source_labels: [__meta_kubernetes_node_name]
              regex: (.+)
              target_label: __metrics_path__
              replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor
            - action: labelmap
              regex: __meta_kubernetes_node_label_(.+)
     
          - job_name: 'kubernetes-pods'
            kubernetes_sd_configs:
            - role: pod
            relabel_configs:
            - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
              action: keep
              regex: true
            - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
              action: replace
              target_label: __metrics_path__
              regex: (.+)
            - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
              action: replace
              regex: ([^:]+)(?::\d+)?;(\d+)
              replacement: $1:$2
              target_label: __address__
            - action: labelmap
              regex: __meta_kubernetes_pod_label_(.+)
            - source_labels: [__meta_kubernetes_namespace]
              action: replace
              target_label: kubernetes_namespace
            - source_labels: [__meta_kubernetes_pod_name]
              action: replace
              target_label: kubernetes_pod_name
    
    
          - job_name: 'kubernetes-apiservers'
            kubernetes_sd_configs:
            - role: endpoints
            scheme: https
            tls_config:
              ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
            bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
            relabel_configs:
            - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]
              action: keep
              regex: default;kubernetes;https
            - target_label: __address__
              replacement: kubernetes.default.svc:443
    prometheus-configmap.yml

    1.2 使用Deployment部署Prometheus

    apiVersion: v1
    kind: "Service"
    metadata:
      name: prometheus
      namespace: monitoring
      labels:
        name: prometheus
    spec:
      ports:
      - name: prometheus
        protocol: TCP
        port: 9090
        targetPort: 9090
      selector:
        app: prometheus
      type: NodePort
    ---
    apiVersion: apps/v1
    kind: Deployment
    metadata:
      labels:
        name: prometheus
      name: prometheus
      namespace: monitoring
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: prometheus
      template:
        metadata:
          labels:
            app: prometheus
        spec:
          serviceAccountName: prometheus
          containers:
          - name: prometheus
            image: prom/prometheus:v2.3.0
            env:
            - name: ver
              value: "8"
            command:
            - "/bin/prometheus"
            args:
            - "--config.file=/etc/prometheus/prometheus.yml"
            ports:
            - containerPort: 9090
              protocol: TCP
            volumeMounts:
            - mountPath: "/etc/prometheus"
              name: prometheus-config
          volumes:
          - name: prometheus-config
            configMap:
              name: prometheus-config
    prometheus-deployment.yaml

      安装完成后使用nodeport来访问测试是否安装成功,这里就不做演示

     

    2.Kubernetes的访问授权

      这篇授权文件已更新增强了通过node的访问发现模式的授权.

    2.1 Kubernetes的访问授权

      为了能够让Prometheus能够访问收到认证保护的Kubernetes API,我们首先需要做的是,对Prometheus进行访问授权。在Kubernetes中主要使用基于角色的访问控制模型(Role-Based Access Control),用于管理Kubernetes下资源访问权限。首先我们需要在Kubernetes下定义角色(ClusterRole),并且为该角色赋予相应的访问权限。同时创建Prometheus所使用的账号(ServiceAccount),最后则是将该账号与角色进行绑定(ClusterRoleBinding)。这些所有的操作在Kubernetes同样被视为是一系列的资源,可以通过YAML文件进行描述并创建,这里创建prometheus-rbac-setup.yml文件,并写入以下内容:

    apiVersion: rbac.authorization.k8s.io/v1beta1  
    kind: ClusterRole  
    metadata:  
      name: prometheus  
    rules:  
    - apiGroups: [""]  
      resources:  
      - nodes  
      #node发现模式的授权资源,不然通过kubelet自带的发现模式不授权这个资源,会在prometheus爆出403错误  
      - nodes/metrics  
      - nodes/proxy  
      - services  
      - endpoints  
      - pods  
      - namespaces  
      verbs: ["get", "list", "watch"]  
    - apiGroups:  
      - extensions  
      resources:  
      - ingresses  
      verbs: ["get", "list", "watch"]  
    - nonResourceURLs: ["/metrics","/api/*"]  
      verbs: ["get"]  
    ---  
    apiVersion: v1  
    kind: ServiceAccount  
    metadata:  
      name: prometheus  
      namespace: monitoring  
    ---  
    apiVersion: rbac.authorization.k8s.io/v1beta1  
    kind: ClusterRoleBinding  
    metadata:  
      name: prometheus  
    roleRef:  
      apiGroup: rbac.authorization.k8s.io  
      kind: ClusterRole  
      name: prometheus  
    subjects:  
    - kind: ServiceAccount  
      name: prometheus  
      namespace: monitoring  
    prometheus-rbac-setup.yml

      其中需要注意的是ClusterRole是全局的,不需要指定命名空间。而ServiceAccount是属于特定命名空间的资源。通过kubectl命令创建RBAC对应的各个资源:

    $ kubectl create -f prometheus-rbac-setup.yml
    clusterrole "prometheus" created
    serviceaccount "prometheus" created
    clusterrolebinding "prometheus" created

      在完成角色权限以及用户的绑定之后,就可以指定Prometheus使用特定的ServiceAccount创建Pod实例。修改prometheus-deployment.yml文件,并添加serviceAccountName和serviceAccount定义:

    spec:
      replicas: 1
      template:
        metadata:
          labels:
            app: prometheus
        spec:
          serviceAccountName: prometheus
          serviceAccount: prometheus

      通过kubectl apply对Deployment进行变更升级:

    $ kubectl apply -f prometheus-deployment.yml
    service "prometheus" configured
    deployment "prometheus" configured
    
    $ kubectl get pods
    NAME                               READY     STATUS        RESTARTS   AGE
    prometheus-55f655696d-wjqcl        0/1       Terminating   0          38m
    prometheus-69f9ddb588-czn2c        1/1       Running       0          6s

      指定ServiceAccount创建的Pod实例中,会自动将用于访问Kubernetes API的CA证书以及当前账户对应的访问令牌文件挂载到Pod实例的/var/run/secrets/kubernetes.io/serviceaccount/目录下,可以通过以下命令进行查看:

    kubectl exec -it prometheus-69f9ddb588-czn2c ls /var/run/secrets/kubernetes.io/serviceaccount/
    ca.crt     namespace  token

    2.2 Kubernetes下的服务发现

      之前介绍了Prometheus的服务发现能力,它能够与通过与“中间代理人“的交互,从而动态的获取需要监控的目标实例。而在Kubernetes下Prometheus就是需要与Kubernetes的API进行交互,从而能够动态的发现Kubernetes中部署的所有可监控的目标资源。

      在Kubernetes下,Promethues通过与Kubernetes API集成目前主要支持5种服务发现模式,分别是:Node、Service、Pod、Endpoints、Ingress。

      通过kubectl命令行,可以方便的获取到当前集群中的所有节点信息:

       以下使用minikube做一个简单的示例

    $ kubectl get nodes -o wide
    NAME       STATUS    ROLES     AGE       VERSION   EXTERNAL-IP   OS-IMAGE            KERNEL-VERSION   CONTAINER-RUNTIME
    minikube   Ready     <none>    164d      v1.8.0    <none>        Buildroot 2017.02   4.9.13           docker://Unknown

      为了能够让Prometheus能够获取到当前集群中所有节点的信息,在Promtheus的配置文件中,我们添加如下Job配置:

    - job_name: 'kubernetes-nodes'
      tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
      kubernetes_sd_configs:
      - role: node

      通过指定kubernetes_sd_config的模式为node,Prometheus会自动从Kubernetes中发现到所有的node节点并作为当前Job监控的Target实例。如下所示,这里需要指定用于访问Kubernetes API的ca以及token文件路径。

      对于Ingress,Service,Endpoints, Pod的使用方式也是类似的,下面给出了一个完整Prometheus配置的示例:

    apiVersion: v1
    data:
      prometheus.yml: |-
        global:
          scrape_interval:     15s 
          evaluation_interval: 15s
        scrape_configs:
    
        - job_name: 'kubernetes-nodes'
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: node
    
        - job_name: 'kubernetes-service'
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: service
    
        - job_name: 'kubernetes-endpoints'
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: endpoints
    
        - job_name: 'kubernetes-ingress'
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: ingress
    
        - job_name: 'kubernetes-pods'
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: pod
    
    kind: ConfigMap
    metadata:
      name: prometheus-config
    prometheus-configamp.yaml

      更新Prometheus配置文件,并重建Prometheus实例:

    $ kubectl apply -f prometheus-config.yml
    configmap "prometheus-config" configured
    
    $ kubectl get pods
    prometheus-69f9ddb588-rbrs2        1/1       Running   0          4m
    
    $ kubectl delete pods prometheus-69f9ddb588-rbrs2
    pod "prometheus-69f9ddb588-rbrs2" deleted
    
    $ kubectl get pods
    prometheus-69f9ddb588-rbrs2        0/1       Terminating   0          4m
    prometheus-69f9ddb588-wtlsn        1/1       Running       0          14s

      Prometheus使用新的配置文件重建之后,打开Prometheus UI,通过Service Discovery页面可以查看到当前Prometheus通过Kubernetes发现的所有资源对象了:

                                   Service Discovery发现的实例

      同时Prometheus会自动将该资源的所有信息,并通过标签的形式体现在Target对象上。如下所示,是Promthues获取到的Node节点的标签信息:

    __address__="192.168.99.100:10250"
    __meta_kubernetes_node_address_Hostname="minikube"
    __meta_kubernetes_node_address_InternalIP="192.168.99.100"
    __meta_kubernetes_node_annotation_alpha_kubernetes_io_provided_node_ip="192.168.99.100"
    __meta_kubernetes_node_annotation_node_alpha_kubernetes_io_ttl="0"
    __meta_kubernetes_node_annotation_volumes_kubernetes_io_controller_managed_attach_detach="true"
    __meta_kubernetes_node_label_beta_kubernetes_io_arch="amd64"
    __meta_kubernetes_node_label_beta_kubernetes_io_os="linux"
    __meta_kubernetes_node_label_kubernetes_io_hostname="minikube"
    __meta_kubernetes_node_name="minikube"
    __metrics_path__="/metrics"
    __scheme__="https"
    instance="minikube"
    job="kubernetes-nodes"

      目前为止,我们已经能够通过Prometheus自动发现Kubernetes集群中的各类资源以及其基本信息。不过,如果现在查看Promtheus的Target状态页面,结果可能会让人不太满意:

                                       Target页面状态

      虽然Prometheus能够自动发现所有的资源对象,并且将其作为Target对象进行数据采集。 但并不是所有的资源对象都是支持Promethues的,并且不同类型资源对象的采集方式可能是不同的。因此,在实际的操作中,我们需要有明确的监控目标,并且针对不同类型的监控目标设置不同的数据采集方式。

      接下来,将利用Promtheus的服务发现能力,实现对Kubernetes集群的全面监控。

     

    3.监控Kubernetes集群

      上一小节中,介绍了Promtheus在Kubernetes下的服务发现能力,并且通过kubernetes_sd_config实现了对Kubernetes下各类资源的自动发现。在本小节中,我们将利用Promethues提供的服务发现能力,实现对Kubernetes集群以及其中部署的各类资源的自动化监控。

    3.1 维度策略表

      下表中,梳理了监控Kubernetes集群监控的各个维度以及策略:

    目标 服务发现模式 监控方法 数据源
    从集群各节点kubelet组件中获取节点kubelet的基本运行状态的监控指标 node 白盒 Kubelet
    从集群各节点kubelet内置的cAdvisor中获取,节点中运行的容器的监控指标 node 白盒 Kubelet
    从部署到各个节点的Node Exporter中采集主机资源相关的运行资源 node 白盒 Node exporter
    对于内置了Promthues支持的应用,需要从Pod实例中采集其自定义监控指标 pod 白盒 Clustom pod
    获取API Server组件的访问地址,并从中获取Kubernetes集群相关的运行监控指标 endpoints 白盒 api server
    获取集群中Service的访问地址,并通过Blackbox Exporter获取网络探测指标 service 黑盒 blackbox exporter
    获取集群中Ingress的访问信息,并通过Blackbox Exporter获取网络探测指标 ingress 黑盒 blackbox exporter
    apiserver实际上是一种特殊的Service,配置一个专门发现普通类型的Service endpoints 白盒 带有监控接口的service

     

    3.2 Kubernetes 集群内监控配置

    3.2.1 报错处理

      这里的报错在下面可能会能用到,所以先贴出来。

      该报错一般在node发现模式出现,就是在通过10250读取metrics时出现。报错见以下

    Get https://x.x.x.x.:10250/metrics: x509: cannot validate certificate for 192.168.99.100 because it doesn't contain any IP SANs

      这是由于当前使用的ca证书中,并不包含192.168.99.100的地址信息。为了解决该问题,第一种方法是直接跳过ca证书校验过程,通过在tls_config中设置 insecure_skip_verify为true即可。 这样Promthues在采集样本数据时,将会自动跳过ca证书的校验过程,从而从kubelet采集到监控数据:

      - job_name: 'kubernetes-kubelet'
          scheme: https
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
            insecure_skip_verify: true
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: node
          relabel_configs:
          - action: labelmap
            regex: __meta_kubernetes_node_label_(.+)

    3.2.2 从Kubelet获取节点运行状态

      以下获取kubelet 节点运行状态有2种方式来获取,在维度策略表里面有具体体现。

      简单来说有一种通过node 的 metric的方式,一种使用使用k8s api的方式获取,2种方式都可以,但是为了统一,建议使用K8s api的获取方式.

      使用node发现模式和api发现模式,主要在于访问的api不一样,其余的都一样。

     

      k8s api发现模式 merics地址(地址原文档未找到,根据实验结果反推的以下地址)

      cAdvisor的metrics地址: /api/v1/nodes/[节点名称]/proxy/metrics/cadvisor

      kubelnet的metrics地址:/api/v1/nodes/[节点名称]/proxy/metrics

          

      Node模式自动发现集群中所有Kubelet作为监控的数据采集目标 地址

      cAdvisor的metrics地址: /metrics/cadvisor

      kubelnet的metrics地址:/metrics

     

    3.2.2.1 K8S API

      1.代码总览

    - job_name: 'kubernetes-kubelet'  
      scheme: https  
      tls_config:  
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt  
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token  
      kubernetes_sd_configs:  
      - role: node  
      relabel_configs:  
      - action: labelmap  
      - target_label: __address__  
        replacement: kubernetes.default.svc:443  
      - source_labels: [__meta_kubernetes_node_name]  
        regex: (.+)  
        target_label: __metrics_path__  
        replacement: /api/v1/nodes/${1}/proxy/metrics   

      这里使用api-server提供的代理API访问各个节点中kubelet的metrics服务,所以这里只能监控kubelet的一些状态和数据

      这里配置从relabel_configs分为3步:

      第一步:  使用 -action:labelmap, 把k8s node的标签给匹配出来,方便我们分组,即使没有标签也能是node的状态为up

      第二步:  使用 -target_label: __address__,由于在集群内部,这里用集群默认的api server的地址 替换掉__address,这样,就可以访问到集群,并且将node节点的状态为up,但是 访问api是错误的,无法获取数据

      第三步: 使用 -source_labels: [__meta_kubernetes_node_name] 以及 replacement 将 拼接的正常的api替换掉 __metrics_path__,这样就可以获取 kubelet的 mertics的数据了.

     

      2.target状态

      3.步骤拆解

      每个监控模块只从重点开始讲解。

      第一步:

    kubernetes_sd_configs: 
    - role: node 

      这里首先什么动作都不增加,看看target界面效果,没有标签,但是主机是通的,但是这里是因为如果什么都不增加,那么就是 node的发现模式,为了使用api的发现模式,所以接下来还有很多步骤.

      第二步:

    - action: labelmap 
      regex: __meta_kubernetes_node_label_(.+) 

      __meta_kubernetes_node_label_(.+)  为kubernetes_sd_config的默认可用元标签,

      __meta_kubernetes_node_label_(.+) 官方文档是让用户匹配node的标签,这里使用.+匹配到了所有的node标签,默认可用元标签,可查阅文档https://prometheus.io/docs/prometheus/latest/configuration/configuration/#kubernetes_sd_config;把标签匹配出来可以方便我们分组

      第三步:

    - target_label: __address__ 
      replacement: kubernetes.default.svc:443 

      

      由于第2步里面将地址替换成为了kubernetes.default.svc,这时url地址变成了 "域名/merics",这是k8s api访问模式的地址,(如果是api的发现模式,如果替换了地址,但是这时候监控key就没有了)虽然节点状态正常,但是无法通过api查询数,所以下一步就是将这个地址变成默认的kubelet的metrics地址。kubelnet的metrics地址:/api/v1/nodes/[节点名称]/proxy/metrics,下面的source_labels 是node的默认标签.

      第四步:

    - source_labels: [__meta_kubernetes_node_name]    #语法不加 [] 程序就会报错  
      regex: (.+)  
      target_label: __metrics_path__  
      replacement: /api/v1/nodes/${1}/proxy/metrics  

     

      匹配原标签的所有值(也就是node的名称),replacement中的值将会覆盖target_label中指定的label name的值,即__metrics_path__的值会被替换为/api/v1/nodes/${1}/proxy/metrics,其中${1}的值会被替换为__meta_kubernetes_node_name的值这样完成的可以请求数据的api就拼接出来了

      以上就完成了api自动发现的方式

     

    4.监控key总览

     

    3.2.2.2 Node 发现模式

      Kubelet组件运行在Kubernetes集群的各个节点中,其负责维护和管理节点上Pod的运行状态。kubelet组件的正常运行直接关系到该节点是否能够正常的被Kubernetes集群正常使用。

      基于Node模式,Prometheus会自动发现Kubernetes中所有Node节点的信息并作为监控的目标Target。 而这些Target的访问地址实际上就是Kubelet的访问地址,并且Kubelet实际上直接内置了对Promtheus的支持。

      简单来说,node和api发现模式在于访问的api不同,没有api发现模式的后面三个步骤,就是node发现模式(node发现模式的授权sa已更新到最新)

     

      1.代码总览

    - job_name: 'kubernetes-kubelet'  
      scheme: https  
      tls_config:  
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt  
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token  
      kubernetes_sd_configs:  
      - role: node  
      relabel_configs:  
      - action: labelmap  
    regex: __meta_kubernetes_node_label_(.+)

      默认使用role:node,那么就是node发现模式,区别在于访问的api不同,见下一步的正常target状态。

     

      2.正常target状态

      3.步骤拆解

      Node发现模式和 api发现模式只是api的不同,事实上,node的发现模式更为简洁。

      所以这里不做重复的描述

     

      4.监控key总览

      在k8s API章节一样,这里不做过多讲解

     

    3.2.3 从Kubelet获取节点容器资源使用情况

    从集群各节点kubelet内置的cAdvisor中获取,节点中运行的容器的监控指标 node 白盒 kubelet

      各节点的kubelet组件中除了包含自身的监控指标信息以外,kubelet组件还内置了对cAdvisor的支持。cAdvisor能够获取当前节点上运行的所有容器的资源使用情况,通过访问kubelet的/metrics/cadvisor地址可以获取到cadvisor的监控指标,因此和获取kubelet监控指标类似,这里同样通过node模式自动发现所有的kubelet信息,并通过适当的relabel过程,修改监控采集任务的配置。 与采集kubelet自身监控指标相似,这里也有两种方式采集cadvisor中的监控指标。

      使用node发现模式和api发现模式,主要在于访问的api不一样,其余的都一样。.

      k8s api发现模式 merics地址

      cAdvisor的metrics地址: /api/v1/nodes/[节点名称]/proxy/metrics/cadvisor

      kubelet的metrics地址:/api/v1/nodes/[节点名称]/proxy/metrics

          

      Node模式自动发现集群中所有Kubelet作为监控的数据采集目标地址

      cAdvisor的metrics地址: /metrics/cadvisor

      kubelnet的metrics地址:/metrics

     

    3.2.3.1 K8S API

      1.代码总览

    - job_name: 'kubernetes-cadvisor'  
      scheme: https  
      tls_config:  
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt  
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token  
      kubernetes_sd_configs:  
      - role: node     
        
        
      #cadvisor的方式和job kubelet的方式基本相同,差距只是api后面多了一个 cadvisor  
      relabel_configs:  
      - target_label: __address__  
        replacement: kubernetes.default.svc:443  
      - source_labels: [__meta_kubernetes_node_name]  
        regex: (.+)  
        target_label: __metrics_path__  
        replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor  
      - action: labelmap  
        regex: __meta_kubernetes_node_label_(.+)  

      cadvisor的方式和job kubelet的方式基本相同,差距只是api后面多了一个cadvisor 

      因为这里需要增加一个cadvisor的目录上去,所以在代码的16-18,替换的api url是不同的

     

      2.正常target状态

      3.步骤拆解

      由于和获取节点运行状态的方式一样,这里就不做具体拆解,只是api后面多了一个cadvisor

     

      4.监控key总览

    3.2.3.2 Node发现模式

      1.代码总览

    - job_name: 'kubernetes-cadvisor'  
      scheme: https  
      tls_config:  
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt  
        insecure_skip_verify: true  
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token  
      kubernetes_sd_configs:  
      - role: node  
      relabel_configs:  
      - source_labels: [__meta_kubernetes_node_name]  
        regex: (.+)  
        target_label: __metrics_path__  
        replacement: metrics/cadvisor  
      - action: labelmap  
        regex: __meta_kubernetes_node_label_(.+)   

      因为在从 kubelet获取节点运行状态默认就是api 就是metric,所以在这个node发现模式章节,把默认的metrics值替换成为metrics/cadvisor ,就这里的代码不相同

      2.正常target状态

      3.步骤拆解

      由于和获取节点运行状态的方式一样,这里就不做具体拆解,只是api后面多了一个cadvisor

     

      4.监控key总览

      在k8s API章节一样,这里不做过多讲解

     

    3.2.4 使用NodeExporter监控集群资源使用情况

    从部署到各个节点的Node Exporter中采集主机资源相关的运行资源 node 白盒 Node exporter
    对于内置了Promthues支持的应用,需要从Pod实例中采集其自定义监控指标 pod 白盒 Clustom pod
    3.2.4.1 安装NodeExporter

      为了能够采集集群中各个节点的资源使用情况,我们需要在各节点中部署一个Node Exporter实例。在本章的“部署Prometheus”小节,我们使用了Kubernetes内置的控制器之一Deployment。Deployment能够确保Prometheus的Pod能够按照预期的状态在集群中运行,而Pod实例可能随机运行在任意节点上。而与Prometheus的部署不同的是,对于Node Exporter而言每个节点只需要运行一个唯一的实例,此时,就需要使用Kubernetes的另外一种控制器Daemonset。顾名思义,Daemonset的管理方式类似于操作系统中的守护进程。Daemonset会确保在集群中所有(也可以指定)节点上运行一个唯一的Pod实例。

    apiVersion: extensions/v1beta1  
    kind: DaemonSet  
    metadata:  
      name: node-exporter  
      namespace: monitoring  
    spec:  
      template:  
        metadata:  
          annotations:  
            prometheus.io/scrape: 'true'  
            prometheus.io/port: '9100'  
            prometheus.io/path: '/metrics'  
          labels:  
            app: node-exporter  
          name: node-exporter  
        spec:  
          containers:  
          - image: prom/node-exporter  
            imagePullPolicy: IfNotPresent  
            name: node-exporter  
            ports:  
            - containerPort: 9100  
              hostPort: 9100  
              name: scrape  
          hostNetwork: true  
          hostPID: true    

      由于Node Exporter需要能够访问宿主机,因此这里指定了hostNetwork和hostPID,让Pod实例能够以主机网络以及系统进程的形式运行。同时YAML文件中也创建了NodeExporter相应的Service。这样通过Service就可以访问到对应的NodeExporter实例。

      应用后查看状态

    $ kubectl get daemonsets
    NAME            DESIRED   CURRENT   READY     UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
    node-exporter   1         1         1         1            1           <none>          15s
    
    $ kubectl get pods
    NAME                               READY     STATUS    RESTARTS   AGE
    ...
    node-exporter-9h56z                1/1       Running   0          51s  

      由于Node Exporter是以主机网络的形式运行,因此直接访问MiniKube的虚拟机IP加上Pod的端口即可访问当前节点上运行的Node Exporter实例:

    curl http://ip:9100/metrics 

      目前为止,通过Daemonset的形式将Node Exporter部署到了集群中的各个节点中。接下来,我们只需要通过Prometheus的pod服务发现模式,找到当前集群中部署的Node Exporter实例即可。 需要注意的是,由于Kubernetes中并非所有的Pod都提供了对Prometheus的支持,有些可能只是一些简单的用户应用,为了区分哪些Pod实例是可以供Prometheus进行采集的,这里我们为Node Exporter添加了注解:

    prometheus.io/scrape: 'true'  
    (很多时候,包括在这里,可以通过这个注释过滤出要监控的容器)

      由于Kubernetes中Pod可能会包含多个容器,还需要用户通过注解指定用户提供监控指标的采集端口:

    prometheus.io/port: '9100' 

      而有些情况下,Pod中的容器可能并没有使用默认的/metrics作为监控采集路径,因此还需要支持用户指定采集路径:

    prometheus.io/path: 'metrics' 
    3.2.4.2 配置

      1.代码总览

    - job_name: 'kubernetes-pods'  
      kubernetes_sd_configs:  
      - role: pod  
      relabel_configs:  
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]  
        action: keep  
        regex: true  
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]  
        action: replace  
        target_label: __metrics_path__  
        regex: (.+)  
      - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]  
        action: replace  
        regex: ([^:]+)(?::\d+)?;(\d+)  
        replacement: $1:$2  
        target_label: __address__  
      - action: labelmap  
        regex: __meta_kubernetes_pod_label_(.+)  
      - source_labels: [__meta_kubernetes_namespace]  
        action: replace  
        target_label: kubernetes_namespace  
      - source_labels: [__meta_kubernetes_pod_name]  
        action: replace  
        target_label: kubernetes_pod_name  

      这里使用 node_exporter来获取pod的信息,所以这里主要可以获取一些pod container的一些信息;

      这里从relabel_config开始,总共分为5步

      第一步: 使用source_labels和action:keep,过滤出用户标记过的pod,regex=true才会去匹配,否则会匹配出所有pod

      第二步: 使用source_labels和action:replace,过路出用户标记过的pod,并获取标记的prometheus_io_path的值,然后替换掉__address__

      第三步: 使用source_labels过滤出ip和端口号,替换到target_label里面

      第四步: 使用labelmap 取出pod的 namespace,方便我们查看和分类

      第五步: 使用labelmap 取出pod的名称,方便我们查看和分类

     

      2.正常target状态

     

      3.步骤拆解

      第一步:

    - job_name: 'kubernetes-pods'  
      kubernetes_sd_configs:  
      - role: pod  

      这里使用role:pod的发现模式

      由于没有过滤出要监控的pod和更改监控访问的api,这里为止,获取了所有的deploy信息

      第二步:

    relabel_configs:  
    - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]  
      action: keep  
      regex: true  

      __meta_kubernetes_pod_annotation_prometheus_io_scrape是根据 deploy的注释来采集的,只有annotation=prometheus_io_scrape(当然,这是自定义的)才能收集到

      这里通过annotation 过滤除了pod,但是监控的api url不对。

      第三步:

    - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]  
      action: replace  
      target_label: __metrics_path__  
      regex: (.+)  

      过滤出源标签__meta_kubernetes_pod_annotation_prometheus_io_path 的值,然后替换到默认标签 __metrics_path__的值

      prometheus_io_path也是用户最定义的值

      这里是改变二级目录的路径值,所以这里默认就是metric,显示没有没有多大改动

      第四步:

    - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]  
      action: replace  
      regex: ([^:]+)(?::\d+)?;(\d+)  
      replacement: $1:$2  
      target_label: __address__  

      过滤出 source_labels 的标签的值,也就是取出IP地址和端口号

      regex:只取出默认标签里面需要的参数,这条正则取出的就是ip地址

      replacement:  把上面过滤出来的IP地址和端口号反向引用然后替换到 target_label 标签里面去

      由于node默认就是 9100和metics的二级目录,所以这里改变了其实是为了保险一点,到这一步,基本可以获取监控key了

      第五步:

    - action: labelmap  
      regex: __meta_kubernetes_pod_label_(.+)  

      取出pod的标签,方便我们分类和查看

      虽然上一步已经有了监控key了,但是为了分组和方便查看,这里再把pod的标签过滤出来

      第六步:

    - source_labels: [__meta_kubernetes_namespace]  
      action: replace  
      target_label: kubernetes_namespace  

      取出 namespace,替换到kubernetes_namespace标签里

      第七步:

    - source_labels: [__meta_kubernetes_pod_name] 
      action: replace 
      target_label: kubernetes_pod_name 

      取出 pod名,以同样的方式替换至展示的目标标签

      4.监控key总览

    3.2.5 从kube-apiserver获取集群运行监控指标

    获取API Server组件的访问地址,并从中获取Kubernetes集群相关的运行监控指标 endpoints 白盒 api server

      在开始正式内容之前,我们需要先了解一下Kubernetes中Service是如何实现负载均衡的,如下图所示,一般来说Service有两个主要的使用场景:

      代理对集群内部应用Pod实例的请求:当创建Service时如果指定了标签选择器,Kubernetes会监听集群中所有的Pod变化情况,通过Endpoints自动维护满足标签选择器的Pod实例的访问信息;

      代理对集群外部服务的请求:当创建Service时如果不指定任何的标签选择器,此时需要用户手动创建Service对应的Endpoint资源。例如,一般来说,为了确保数据的安全,我们通常讲数据库服务部署到集群外。 这是为了避免集群内的应用硬编码数据库的访问信息,这是就可以通过在集群内创建Service,并指向外部的数据库服务实例。

      kube-apiserver扮演了整个Kubernetes集群管理的入口的角色,负责对外暴露Kubernetes API。kube-apiserver组件一般是独立部署在集群外的,为了能够让部署在集群内的应用(kubernetes插件或者用户应用)能够与kube-apiserver交互,Kubernetes会默认在命名空间下创建一个名为kubernetes的服务,如下所示:

    $ kubectl get svc kubernetes -o wide  
    NAME                  TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)          AGE       SELECTOR  
    kubernetes            ClusterIP   10.96.0.1       <none>        443/TCP          166d      <none>  

      而该kubernetes服务代理的后端实际地址通过endpoints进行维护,如下所示:

    $ kubectl get endpoints kubernetes  
    NAME         ENDPOINTS        AGE  
    kubernetes   10.0.2.15:8443   166d  

      通过这种方式集群内的应用或者系统主机就可以通过集群内部的DNS域名kubernetes.default.svc访问到部署外部的kube-apiserver实例。

      因此,如果我们想要监控kube-apiserver相关的指标,只需要通过endpoints资源找到kubernetes对应的所有后端地址即可。

      如下所示,创建监控任务kubernetes-apiservers,这里指定了服务发现模式为endpoints。Promtheus会查找当前集群中所有的endpoints配置,并通过relabel进行判断是否为apiserver对应的访问地址:

     

      1.代码总览

    - job_name: 'kubernetes-apiservers'  
      kubernetes_sd_configs:  
      - role: endpoints  
      scheme: https  
      tls_config:  
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt  
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token  
        
      relabel_configs:  
     - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]  
        action: keep  
        regex: default;kubernetes;https  
      - target_label: __address__  
        replacement: kubernetes.default.svc:443  

      过滤出k8s api集群的访问svc ,然后将 kubernetes.default.svc:443替换到默认标签上面,让prometheus可以访问

      这里从relabel_config开始,总共分为2步

      第一步:过滤出默认的k8s api的svc.

      第二步:把kubernetes.default.svc:443替换到默认__address__

     

      2.正常target状态

     

      3.步骤拆解

      第一步:

    - job_name: 'kubernetes-apiservers'  
      kubernetes_sd_configs:  
      - role: endpoints  
      scheme: https  

      这里使用role: endpoints的发现模式

      如果不配置relabel_configs,,因为访问不到正常的api,所以target是空白的

      第二步:

    - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]  
      action: keep  
      regex: default;kubernetes;https  

      使用source_labels过滤出, defautl空间下的kubernetes服务,这是一个k8s的对外接口服务,服务调用k8sapi都是经过这个svc

      由于没有替换掉 api url,所以显示出的是node的ip和默认端口

      第三步:

    - target_label: __address__  
      replacement: kubernetes.default.svc:443  

      然后通过target_label替换掉默认的__address__,这样prometheus就可以访问 k8s的api服务

      

      4.监控key总览

    3.2.6 对Ingress和Service进行网络探测

    获取集群中Service的访问地址,并通过Blackbox Exporter获取网络探测指标 service 黑盒 blackbox exporter
    获取集群中Ingress的访问信息,并通过Blackbox Exporter获取网络探测指标 ingress 黑盒 blackbox exporter

     

    3.2.6.1 Blackbox exporter

      Blackbox_exporter 主动监测主机与服务状态,是官方提供的 exporter 之一,可以提供 http、dns、tcp、icmp 的监控数据采集

    • HTTP 测试

      定义 Request Header 信息

      判断 Http status / Http Respones Header / Http Body 内容

    • TCP 测试

      业务组件端口状态监听

      应用层协议定义与监听

    • ICMP 测试

      主机探活机制

    • POST 测试

      接口联通性

    • SSL 证书过期时间

     

      安装

    apiVersion: v1  
    kind: Service  
    metadata:  
      namespace: monitoring  
      labels:  
        app: blackbox-exporter  
      name: blackbox-exporter  
    spec:  
      ports:  
      - name: blackbox  
        port: 9115  
        protocol: TCP  
      selector:  
        app: blackbox-exporter  
      type: ClusterIP  
    ---  
    apiVersion: extensions/v1beta1  
    kind: Deployment  
    metadata:  
      labels:  
        app: blackbox-exporter  
      name: blackbox-exporter  
      namespace: monitoring  
    spec:  
      replicas: 1  
      selector:  
        matchLabels:  
          app: blackbox-exporter  
      template:  
        metadata:  
          labels:  
            app: blackbox-exporter  
        spec:  
          containers:  
          - image: prom/blackbox-exporter  
            imagePullPolicy: IfNotPresent  
            name: blackbox-exporter  

      通过kubectl命令部署Blackbox Exporter实例,这里将部署一个Blackbox Exporter的Pod实例,同时通过服务blackbox-exporter在集群内暴露访问地址blackbox-exporter.default.svc.cluster.local,对于集群内的任意服务都可以通过该内部DNS域名访问Blackbox Exporter实例

     

    3.2.6.2 Service

      1.代码总览

    - job_name: 'kubernetes-services'  
      metrics_path: /probe  
      params:  
        module: [http_2xx]  
      kubernetes_sd_configs:  
      - role: service  
      relabel_configs:  
      - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_probe]  
        action: keep  
        regex: true  
      - source_labels: [__address__]  
        target_label: __param_target  
      - source_labels: [__param_target]  
        target_label: instance  
      - target_label: __address__  
        replacement: blackbox-exporter.monitoring.svc.cluster.local:9115  
      - action: labelmap  
        regex: __meta_kubernetes_service_label_(.+)  
      - source_labels: [__meta_kubernetes_namespace]  
        target_label: kubernetes_namespace  
      - source_labels: [__meta_kubernetes_service_name]  
        target_label: kubernetes_name  

      获取打了prometheus_io_probe标记的svc,因为是需要blocker-exporter来获取监控的svc的信息,所以这里做了2大步:

      1.让prometheus 知道 blackbox-exporter的地址,这样统计信息

      2.知道具体的要监控svc的访问api地址

     

      这里从relabel_config开始,总共分为8小步

      第一步:过滤出用户标记过的svc.(在service的deploy文件里面标明

      第二步: 这里就是替换掉要监控的svc的访问api地址

      第三步: 第二步和第三步做的是一个连续的事情

      第四步:替换掉默认instance信息,默认的是获取监控数据的地址,不太准确,为了标识清楚,还是要替换,不替换也不太会影响监控结果,只是可能在其它地方需要这些信息的时候不太友好。

      第五步:替换掉访问blackbox-exporter的api url,让prometheus可以正确访问

      第六七八步: 都是获取被监控的svc的一些信息

     

      2.正常target状态

      3.步骤拆解

      第一步:

    - job_name: 'kubernetes-services'  
      metrics_path: /probe  
      params:  
        module: [http_2xx]  
      kubernetes_sd_configs:  
      - role: service  

      metrics_path: /probe这里是blockbox-exporter的访问api,可以通过这种方式把路径加入到prometheus的endpoint的ip地址和端口号后面;

      module: [http_2xx]: 一个返回的字符串,一般来检测接口返回,可以不填,不能乱填

      没有annotation 的注释,会获取所有service的信息,但是都不正常

      第二步:

    - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_probe]  
      action: keep  
      regex: true  

      __meta_kubernetes_pod_annotation_prometheus_io_probe是 根据 svc的注释来采集的,只有svc的annotation=prometheus_io_probe(当然,这是自定义的)才能收集到

      过滤出带有annotation的svc

      第三步:

    - source_labels: [__address__] 
      target_label: __param_target   

      这里开始就是要替换要监控的svc的地址了,因为source_labels过滤出了要监控的svc,把要监控的svc的地址覆盖到__param_target标签,__param_target的标签就是左边的target,只是没有显式的显示出来。

      还没替换完成, 但是可以很明显的看出,多了一个target的信息

      第四步:

    - source_labels: [__param_target] 
      target_label: instance 

      把这个默认__param_target的参数的值赋值给 instance,这个值是label里面的一个参数,为了标识清楚,因为默认是获取监控信息的地址。不替换也不太会影响监控结果,只是可能在其它地方需要信息的时候不太友好。

      第五步:

    - target_label: __address__  
      replacement: blackbox-exporter.monitoring.svc.cluster.local:9115  

      替换掉访问blackbox-exporter的api url,让prometheus可以正确访问

      正确地址替换完成

      第六步:

    - action: labelmap  
      regex: __meta_kubernetes_service_label_(.+)  
    - source_labels: [__meta_kubernetes_namespace]  
      target_label: kubernetes_namespace  
    - source_labels: [__meta_kubernetes_service_name]  
      target_label: kubernetes_name  

      这里把六、七、八合在一起了,最后3步都是获取service的标签

      4.监控key总览

     

    3.2.6.3 Ingress

      和service差不多,就做了在匹配路径等信息的时候有一点小小的改变

      1.代码总览

    - job_name: 'kubernetes-ingresses'  
      metrics_path: /probe  
      params:  
        module: [http_2xx]  
      kubernetes_sd_configs:  
      - role: ingress  
      relabel_configs:  
      - source_labels: [__meta_kubernetes_ingress_annotation_prometheus_io_probe]  
        action: keep  
        regex: true  
      - source_labels: [__meta_kubernetes_ingress_scheme,__address__,__meta_kubernetes_ingress_path]  
        regex: (.+);(.+);(.+)  
        replacement: ${1}://${2}${3}  
        target_label: __param_target  
      - target_label: __address__  
        replacement: blackbox-exporter.monitoring.svc.cluster.local:9115  
      - source_labels: [__param_target]  
        target_label: instance  
      - action: labelmap  
        regex: __meta_kubernetes_ingress_label_(.+)  
      - source_labels: [__meta_kubernetes_namespace]  
        target_label: kubernetes_namespace  
      - source_labels: [__meta_kubernetes_ingress_name]  
        target_label: kubernetes_name  

      获取打了prometheus_io_probe标记的ingress,因为是需要blocker-exporter来获取监控的svc的信息,所以这里做了2大步:

      1.让prometheus 知道 blackbox-exporter的地址,这样统计信息

      2.知道具体的要监控ingress的访问api地址

     

      这里从relabel_config开始,总共分为8小步

      第一步:过滤出用户标记过的ingress.(在ingress的deploy文件里面标明

      第二步: 这里就是替换掉要监控的ingress的访问api地址

      第三步: 第二步和第三步做的是一个连续的事情

      第四步: 替换掉访问blackbox-exporter的api url,让prometheus可以正确访问

      第五步: 替换掉默认instance信息,默认的是获取监控数据的地址,不太准确,为了标识清楚,还是要替换,不替换也不太会影响监控结果,只是可能在其它地方需要信息的时候不太友好。

      第六七八步: 都是获取被监控的ingress的一些信息

     

      2.正常target状态

      3.步骤拆解

      第一步:

    - job_name: 'kubernetes-ingresses'  
      metrics_path: /probe  
      params:  
        module: [http_2xx]  
      kubernetes_sd_configs:  
      - role: ingress  

      metrics_path: /probe这里是blockbox-exporter的访问api路径,可以通过这种方式把路径加入到prometheus的endpoint的ip地址和端口号后面;

      module: [http_2xx]: 一个返回的字符串,一般来检测接口返回,可以不填,不能乱填

      没有annotation 的注释,会获取所有ingress的信息,但是都不正常。(这里只创建了一个ingress所以只有一个ingress实例)

      第二步:

      - source_labels: [__meta_kubernetes_ingress_annotation_prometheus_io_probe]  
        action: keep  
        regex: true  

      __meta_kubernetes_pod_annotation_prometheus_io_probe是根据 ingress的注释来采集的,只有ingress的annotation=prometheus_io_probe(当然,这是自定义的)才能收集到

      过滤出带有annotation的ingress(因为只有一个ingress,所以和上面的结果没有什么改变)

      第三步:

      - source_labels: [__meta_kubernetes_ingress_scheme,__address__,__meta_kubernetes_ingress_path]  
        regex: (.+);(.+);(.+)  
        replacement: ${1}://${2}${3}  
        target_label: __param_target  

      这里开始就是要替换要监控的ingress的地址了,使用source_labels过滤出了要监控的协议(http/https)以及地址还有访问路径,把拼接好的要监控ingress的地址 覆盖到__param_target标签,__param_target的标签就是左边的target,只是没有显式的显示出来。

      可以很明显的看出,多了一个target的信息

      第四步:

      - target_label: __address__ 
        replacement: blackbox-exporter.monitoring.svc.cluster.local:9115

      替换掉访问blackbox-exporter的api url,让prometheus可以正确访问

      正确地址替换完成

      第五步:

    - source_labels: [__param_target] 
      target_label: instance 

      把这个默认__param_target的参数的值赋值给 instance,这个值是label里面的一个参数,为了标识清楚,因为默认是获取监控信息的地址。不替换也不太会影响监控结果,只是可能在其它地方需要信息的时候不太友好。

      第六步:

    - action: labelmap  
        regex: __meta_kubernetes_ingress_label_(.+)  
      - source_labels: [__meta_kubernetes_namespace]  
        target_label: kubernetes_namespace  
      - source_labels: [__meta_kubernetes_ingress_name]  
        target_label: kubernetes_name  

      这里把六、七、八合在一起了,最后3步都是获取ingress的标签

     

     

      4.监控key总览

    3.2.7 使用endpoints监控service(番外)

      apiserver实际上是一种特殊的Service,现在配置一个专门发现普通类型的Service,这里的service必须要有自定义的监控接口,否则无法使用这种方式

      由于方式太多相同,且这种方式不会作为主要用途,所以不详细讲解代码每一步的使用方式

     

      主体配置

    - job_name: 'kubernetes-service-endpoints'  
      kubernetes_sd_configs:  
      - role: endpoints  
      relabel_configs:  
      - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]  
        action: keep  
        regex: true  
      - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]  
        action: replace  
        target_label: __scheme__  
        regex: (https?)  
      - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]  
        action: replace  
        target_label: __metrics_path__  
        regex: (.+)  
      - source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]  
        action: replace  
        target_label: __address__  
        regex: ([^:]+)(?::\d+)?;(\d+)  
        replacement: $1:$2  
      - action: labelmap  
        regex: __meta_kubernetes_service_label_(.+)  
      - source_labels: [__meta_kubernetes_namespace]  
        action: replace  
        target_label: kubernetes_namespace  
      - source_labels: [__meta_kubernetes_service_name]  
        action: replace  
        target_label: kubernetes_name  

      因为默认的prometheus.io/scrape: true,如果用户没有自定义做些操作,只有core DNS默认自带了

      所以匹配出来的时候只有core dns

      有了上面的例子,发现如果服务没有自定义的监控度量metric,那么就无法监控,但是有些服务还是可以通过这种方式监控的,比如Redis:

    cat >>prometheus-redis-exporter.yaml <<EOF  
    apiVersion: extensions/v1beta1  
    kind: Deployment  
    metadata:  
      name: redis  
      namespace: abcdocker  
      annotations:  
        prometheus.io/scrape: "true"  
        prometheus.io/port: "9121"  
    spec:  
      template:  
        metadata:  
          labels:  
            app: redis  
        spec:  
          containers:  
          - name: redis  
            image: redis:4  
            resources:  
              requests:  
                cpu: 100m  
                memory: 100Mi  
            ports:  
            - containerPort: 6379  
          - name: redis-exporter  
            image: oliver006/redis_exporter:latest  
            resources:  
              requests:  
                cpu: 100m  
                memory: 100Mi  
            ports:  
            - containerPort: 9121  
    ---  
    kind: Service  
    apiVersion: v1  
    metadata:  
      name: redis  
      namespace: abcdocker  
    spec:  
      selector:  
        app: redis  
      ports:  
      - name: redis  
        port: 6379  
        targetPort: 6379  
      - name: prom  
        port: 9121  
        targetPort: 9121  
    EOF  

      由于Redis服务的metrics接口在redis-exporter 9121上,我们还需要添加prometheus.io/port=9121这样的annotation

      如果redis有metric的监控项,接下来就可以获取redis的监控值了。

     

    3.3 Kubernetes 集群外监控配置

      在集群内和集群外区别不是很大,首先在架构方案,一个prometheus监控多个k8s集群不太合理.但是还是可以实现,只是有些特定监控模块差需要特定的条件开启才能监控到,所以在集群外只是列出了一些示例,一般不到万不得已,不会使用这种模式。

      这里仅列出了使用 node模式监控node以及cadvisor,比如pod是pod发现模式,使用了node-exporte,这里获取的target地址是私网地址,这时,prometheus就无法直接访问私网地址,本章只是用一些事例来演示和集群内的配置有哪些区别,会配置一个就会配置多个.

    - job_name: 'kubernetes-kubelet'  
    #我们这里会跳过https的认证,讲道理这里是不需要开始这个配置的,但是在relabel_configs里面, replacement替换的时候不用这个选项  
    #是无法加上https://的前缀的,其实已经取消了https验证,但是没有办法,在eks上虽然不使用https验证,但是不用https://api-address  
    #就是无法正常获取状态  
       scheme: https  
       kubernetes_sd_configs:  
       - role: node  
    #因为在集群外,这里就要指定要监控的集群的地址  
         api_server: "https://1E73E810A71671022BC2EB1A4F79C434.sk1.ap-northeast-1.eks.amazonaws.com:443"  
         tls_config:  
      #双行注释代表一般不会用这个文件  
           ##ca_file: /data/prometheus/test.crt  
        #跳过https认证  
           insecure_skip_verify: true  
         ##bearer_token: "eyJhbGciOiJSUzI1NiIsImtpZCI6IiJ9.eyJpc3MiOiJrdWJlcm5ldGVzL3NlcnZpY2VhY2NvdW50Iiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9uYW1lc3BhY2UiOiJtb25pdG9yaW5nIiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9zZWNyZXQubmFtZSI6InByb21ldGhldXMtdG9rZW4tajg4OG4iLCJrdWJlcm5ldGVzLmlvL3NlcnZpY2VhY2NvdW50L3NlcnZpY2UtYWNjb3VudC5uYW1lIjoicHJvbWV0aGV1cyIsImt1YmVybmV0ZXMuaW8vc2VydmljZWFjY291bnQvc2VydmljZS1hY2NvdW50LnVpZCI6IjU3M2ZkNjlhLWIyMGQtMTFlOS05ZmJmLTA2MTU3MjE4YWFjYSIsInN1YiI6InN5c3RlbTpzZXJ2aWNlYWNjb3VudDptb25pdG9yaW5nOnByb21ldGhldXMifQ.fyv8Io7opPXqXv30ZBdnRdAr00XhjEPk8jMldPLbbqx4JUAO5h5_qCG9z8ljnzveIbMWPPspq9YtGzoFtdQbg4EkL7G2w-CYPECHyufEna8UkIHkugBEzb7KLHaKbNzbv5v5Lqv_X7gmY_iJUCO3NTHdnkvBSGOawZwSJ0fVS7F6z79d8ec4sf03tPuER4z77-ItzBa9gwEt7Q-V5oqI_evQ4x4XkwbFVNJ1xZUzUbQaGLOQ4gcRQRXmAJYPDL_lzTyHANR7g5AP1r7-HuynM7LoDgpstdyCcp3pF_RwHrpKBUQMwbzoPELBllrAuiXx9niV3yUbQNyjzWOHdIjkRA"  
       #这里的tls_config方式要写2遍,原因不明,可能是因为prometheus去监控时需要去做2次验证  
    tls_config:  
         insecure_skip_verify: true  
    #获取RBAC用户的token,获取方式jenkins文档里面有  
       bearer_token: "eyJhbGciOiJSUzI1NiIsImtpZCI6IiJ9.eyJpc3MiOiJrdWJlcm5ldGVzL3NlcnZpY2VhY2NvdW50Iiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9uYW1lc3BhY2UiOiJtb25pdG9yaW5nIiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9zZWNyZXQubmFtZSI6InByb21ldGhldXMtdG9rZW4tajg4OG4iLCJrdWJlcm5ldGVzLmlvL3NlcnZpY2VhY2NvdW50L3NlcnZpY2UtYWNjb3VudC5uYW1lIjoicHJvbWV0aGV1cyIsImt1YmVybmV0ZXMuaW8vc2VydmljZWFjY291bnQvc2VydmljZS1hY2NvdW50LnVpZCI6IjU3M2ZkNjlhLWIyMGQtMTFlOS05ZmJmLTA2MTU3MjE4YWFjYSIsInN1YiI6InN5c3RlbTpzZXJ2aWNlYWNjb3VudDptb25pdG9yaW5nOnByb21ldGhldXMifQ.fyv8Io7opPXqXv30ZBdnRdAr00XhjEPk8jMldPLbbqx4JUAO5h5_qCG9z8ljnzveIbMWPPspq9YtGzoFtdQbg4EkL7G2w-CYPECHyufEna8UkIHkugBEzb7KLHaKbNzbv5v5Lqv_X7gmY_iJUCO3NTHdnkvBSGOawZwSJ0fVS7F6z79d8ec4sf03tPuER4z77-ItzBa9gwEt7Q-V5oqI_evQ4x4XkwbFVNJ1xZUzUbQaGLOQ4gcRQRXmAJYPDL_lzTyHANR7g5AP1r7-HuynM7LoDgpstdyCcp3pF_RwHrpKBUQMwbzoPELBllrAuiXx9niV3yUbQNyjzWOHdIjkRA"  
       relabel_configs:  
       - action: labelmap  
         regex: __meta_kubernetes_node_label_(.+)    
       - target_label: __address__  
    #这里就不需要加一些http或者https了,加了会报错,只有在scheme配置这里添加  
         replacement: 1E73E810A71671022BC2EB1A4F79C434.sk1.ap-northeast-1.eks.amazonaws.com:443  
       - source_labels: [__meta_kubernetes_node_name]      
         target_label: __metrics_path__  
         replacement: /api/v1/nodes/${1}/proxy/metrics   
        
    #cadvisor和上面是一样的  
     - job_name: 'kubernetes-cadvisor'  
       scheme: https  
       kubernetes_sd_configs:  
       - role: node  
         api_server: "https://1E73E810A71671022BC2EB1A4F79C434.sk1.ap-northeast-1.eks.amazonaws.com:443"  
         tls_config:  
           insecure_skip_verify: true  
       tls_config:  
         insecure_skip_verify: true  
       bearer_token: "eyJhbGciOiJSUzI1NiIsImtpZCI6IiJ9.eyJpc3MiOiJrdWJlcm5ldGVzL3NlcnZpY2VhY2NvdW50Iiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9uYW1lc3BhY2UiOiJtb25pdG9yaW5nIiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9zZWNyZXQubmFtZSI6InByb21ldGhldXMtdG9rZW4tajg4OG4iLCJrdWJlcm5ldGVzLmlvL3NlcnZpY2VhY2NvdW50L3NlcnZpY2UtYWNjb3VudC5uYW1lIjoicHJvbWV0aGV1cyIsImt1YmVybmV0ZXMuaW8vc2VydmljZWFjY291bnQvc2VydmljZS1hY2NvdW50LnVpZCI6IjU3M2ZkNjlhLWIyMGQtMTFlOS05ZmJmLTA2MTU3MjE4YWFjYSIsInN1YiI6InN5c3RlbTpzZXJ2aWNlYWNjb3VudDptb25pdG9yaW5nOnByb21ldGhldXMifQ.fyv8Io7opPXqXv30ZBdnRdAr00XhjEPk8jMldPLbbqx4JUAO5h5_qCG9z8ljnzveIbMWPPspq9YtGzoFtdQbg4EkL7G2w-CYPECHyufEna8UkIHkugBEzb7KLHaKbNzbv5v5Lqv_X7gmY_iJUCO3NTHdnkvBSGOawZwSJ0fVS7F6z79d8ec4sf03tPuER4z77-ItzBa9gwEt7Q-V5oqI_evQ4x4XkwbFVNJ1xZUzUbQaGLOQ4gcRQRXmAJYPDL_lzTyHANR7g5AP1r7-HuynM7LoDgpstdyCcp3pF_RwHrpKBUQMwbzoPELBllrAuiXx9niV3yUbQNyjzWOHdIjkRA"  
       relabel_configs:  
       - target_label: __address__  
         replacement: 1E73E810A71671022BC2EB1A4F79C434.sk1.ap-northeast-1.eks.amazonaws.com:443  
       - source_labels: [__meta_kubernetes_node_name]  
         regex: (.+)  
         target_label: __metrics_path__  
         replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor  
       - action: labelmap  
         regex: __meta_kubernetes_node_label_(.+)  
    集群外监控配置

      集群内集群外更改的就是要指明 k8s的api地址以及 认证方式,这两点都特别妖孽。甚至有时候不知道为什么要这么样配置。

      接下来讲解一些无法使用集群内监控的方式的监控项;比如pod

    - job_name: 'kubernetes-pods'  
      kubernetes_sd_configs:  
      - role: pod  
        api_server: "https://1E73E810A71671022BC2EB1A4F79C434.sk1.ap-northeast-1.eks.amazonaws.com:443"  
        tls_config:  
          insecure_skip_verify: true  
      tls_config:  
        insecure_skip_verify: true  
      bearer_token: "eyJhbGciOiJSUzI1NiIsImtpZCI6IiJ9.eyJpc3MiOiJrdWJlcm5ldGVzL3NlcnZpY2VhY2NvdW50Iiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9uYW1lc3BhY2UiOiJtb25pdG9yaW5nIiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9zZWNyZXQubmFtZSI6InByb21ldGhldXMtdG9rZW4tajg4OG4iLCJrdWJlcm5ldGVzLmlvL3NlcnZpY2VhY2NvdW50L3NlcnZpY2UtYWNjb3VudC5uYW1lIjoicHJvbWV0aGV1cyIsImt1YmVybmV0ZXMuaW8vc2VydmljZWFjY291bnQvc2VydmljZS1hY2NvdW50LnVpZCI6IjU3M2ZkNjlhLWIyMGQtMTFlOS05ZmJmLTA2MTU3MjE4YWFjYSIsInN1YiI6InN5c3RlbTpzZXJ2aWNlYWNjb3VudDptb25pdG9yaW5nOnByb21ldGhldXMifQ.fyv8Io7opPXqXv30ZBdnRdAr00XhjEPk8jMldPLbbqx4JUAO5h5_qCG9z8ljnzveIbMWPPspq9YtGzoFtdQbg4EkL7G2w-CYPECHyufEna8UkIHkugBEzb7KLHaKbNzbv5v5Lqv_X7gmY_iJUCO3NTHdnkvBSGOawZwSJ0fVS7F6z79d8ec4sf03tPuER4z77-ItzBa9gwEt7Q-V5oqI_evQ4x4XkwbFVNJ1xZUzUbQaGLOQ4gcRQRXmAJYPDL_lzTyHANR7g5AP1r7-HuynM7LoDgpstdyCcp3pF_RwHrpKBUQMwbzoPELBllrAuiXx9niV3yUbQNyjzWOHdIjkRA"  
      relabel_configs:  
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]  
        action: keep  
        regex: true  
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]  
        action: replace  
        target_label: __metrics_path__  
        regex: (.+)  
      - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]  
        action: replace  
        regex: ([^:]+)(?::\d+)?;(\d+)  
        replacement: $1:$2  
        target_label: __address__  
      - action: labelmap  
        regex: __meta_kubernetes_pod_label_(.+)  
      - source_labels: [__meta_kubernetes_namespace]  
        action: replace  
        target_label: kubernetes_namespace  
      - source_labels: [__meta_kubernetes_pod_name]  
        action: replace  
        target_label: kubernetes_pod_name  
    pod监控配置

      看看监控pod的结果

      获取的是私网地址,如果prometheus不在一个集群内,无法访问到

     

      总结:

      上述配置已经很复杂了,更变态的是prometheus竟然只支持一个配置文件,因此每加入一个k8s集群的监控,就得往prometheus的配置文件里加入一段上述配置,所以这一章只是演示了一些示例,如果后期真的有这种需求,只能按照示例花时间去摸索.

      (push-gateway还未深入使用到监控k8s,本章节预留)

     

    4.标签问题

      经过上面的示例,可以看出就是对标签的替换和查找,但是就有疑问,不知道标签的值怎么办?

      所以用以下办法知道当前实例的所有标签值。

      - job_name: 'kubernetes-kubelet'
        scheme: https
        tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
        kubernetes_sd_configs:
    - role: node
    
        relabel_configs:
        - action: labelmap
          regex: .(.+)

      以上方式配置之后就可以获取所有标签值,标签可以在prometheus程序的debug模式看。但是会缺少一些标签。

      比较全的标签在prometheus的后台可以看到

      或者在使用pod的发现模式时候,只有安装对应注解的pod才会出现标签,这里node-exporter有了相应的注解,并且已经安装成功

      更多标签问题可以参考以下官方文档: https://prometheus.io/docs/prometheus/latest/configuration/configuration/#kubernetes_sd_config

     

    5.官方示例

      以下最先文档中的示例,如果在上述文章中讲解的有缺失,可以查看以下文章(以下使用的环境是minikube)

    5.1 从Kubelet获取节点运行状态

      Kubelet组件运行在Kubernetes集群的各个节点中,其负责维护和管理节点上Pod的运行状态。kubelet组件的正常运行直接关系到该节点是否能够正常的被Kubernetes集群正常使用。

      基于Node模式,Prometheus会自动发现Kubernetes中所有Node节点的信息并作为监控的目标Target。 而这些Target的访问地址实际上就是Kubelet的访问地址,并且Kubelet实际上直接内置了对Promtheus的支持。

      修改prometheus.yml配置文件,并添加以下采集任务配置:

      - job_name: 'kubernetes-kubelet'
        scheme: https
        tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
        kubernetes_sd_configs:
        - role: node
        relabel_configs:
        - action: labelmap
          regex: __meta_kubernetes_node_label_(.+)

      这里使用Node模式自动发现集群中所有Kubelet作为监控的数据采集目标,同时通过labelmap步骤,将Node节点上的标签,作为样本的标签保存到时间序列当中。

      重新加载promethues配置文件,并重建Promthues的Pod实例后,查看kubernetes-kubelet任务采集状态,我们会看到以下错误提示信息:

     Get https://192.168.99.100:10250/metrics: x509: cannot validate certificate for 192.168.99.100 because it doesn't contain any IP SANs

      这是由于当前使用的ca证书中,并不包含192.168.99.100的地址信息。为了解决该问题,第一种方法是直接跳过ca证书校验过程,通过在tls_config中设置 insecure_skip_verify为true即可。 这样Promthues在采集样本数据时,将会自动跳过ca证书的校验过程,从而从kubelet采集到监控数据:

      - job_name: 'kubernetes-kubelet'
          scheme: https
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
            insecure_skip_verify: true
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: node
          relabel_configs:
          - action: labelmap
            regex: __meta_kubernetes_node_label_(.+)

      

                                          直接采集kubelet监控指标

      第二种方式,不直接通过kubelet的metrics服务采集监控数据,而通过Kubernetes的api-server提供的代理API访问各个节点中kubelet的metrics服务,如下所示:

        - job_name: 'kubernetes-kubelet'
          scheme: https
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: node
          relabel_configs:
          - action: labelmap
            regex: __meta_kubernetes_node_label_(.+)
          - target_label: __address__
            replacement: kubernetes.default.svc:443
          - source_labels: [__meta_kubernetes_node_name]
            regex: (.+)
            target_label: __metrics_path__
            replacement: /api/v1/nodes/${1}/proxy/metrics

      通过relabeling,将从Kubernetes获取到的默认地址__address__替换为kubernetes.default.svc:443。同时将__metrics_path__替换为api-server的代理地址/api/v1/nodes/${1}/proxy/metrics。

                                        通过api-server代理获取kubelet监控指标

      通过获取各个节点中kubelet的监控指标,用户可以评估集群中各节点的性能表现。例如,通过指标kubelet_pod_start_latency_microseconds可以获得当前节点中Pod启动时间相关的统计数据。

     kubelet_pod_start_latency_microseconds{quantile="0.99"}

                                            99%的Pod启动时间

      Pod平均启动时间大致为42s左右(包含镜像下载时间):

    kubelet_pod_start_latency_microseconds_sum / kubelet_pod_start_latency_microseconds_count

                                            Pod平均启动时间

      除此以外,监控指标kubeletdocker*还可以体现出kubelet与当前节点的docker服务的调用情况,从而可以反映出docker本身是否会影响kubelet的性能表现等问题。

     

    5.2 从Kubelet获取节点容器资源使用情况

      各节点的kubelet组件中除了包含自身的监控指标信息以外,kubelet组件还内置了对cAdvisor的支持。cAdvisor能够获取当前节点上运行的所有容器的资源使用情况,通过访问kubelet的/metrics/cadvisor地址可以获取到cadvisor的监控指标,因此和获取kubelet监控指标类似,这里同样通过node模式自动发现所有的kubelet信息,并通过适当的relabel过程,修改监控采集任务的配置。 与采集kubelet自身监控指标相似,这里也有两种方式采集cadvisor中的监控指标:

      方式一:直接访问kubelet的/metrics/cadvisor地址,需要跳过ca证书认证:

        - job_name: 'kubernetes-cadvisor'
          scheme: https
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
            insecure_skip_verify: true
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          kubernetes_sd_configs:
          - role: node
          relabel_configs:
          - source_labels: [__meta_kubernetes_node_name]
            regex: (.+)
            target_label: __metrics_path__
            replacement: metrics/cadvisor
          - action: labelmap
            regex: __meta_kubernetes_node_label_(.+)

                                                  直接访问kubelet

      方式二:通过api-server提供的代理地址访问kubelet的/metrics/cadvisor地址:

                                                     使用api-server代理

     

    5.3 使用NodeExporter监控集群资源使用情况

      为了能够采集集群中各个节点的资源使用情况,我们需要在各节点中部署一个Node Exporter实例。在本章的“部署Prometheus”小节,我们使用了Kubernetes内置的控制器之一Deployment。Deployment能够确保Prometheus的Pod能够按照预期的状态在集群中运行,而Pod实例可能随机运行在任意节点上。而与Prometheus的部署不同的是,对于Node Exporter而言每个节点只需要运行一个唯一的实例,此时,就需要使用Kubernetes的另外一种控制器Daemonset。顾名思义,Daemonset的管理方式类似于操作系统中的守护进程。Daemonset会确保在集群中所有(也可以指定)节点上运行一个唯一的Pod实例。

      创建node-exporter-daemonset.yml文件,并写入以下内容:

       apiVersion: extensions/v1beta1
    kind: DaemonSet
    metadata:
      name: node-exporter
    spec:
      template:
        metadata:
          annotations:
            prometheus.io/scrape: 'true'
            prometheus.io/port: '9100'
            prometheus.io/path: 'metrics'
          labels:
            app: node-exporter
          name: node-exporter
        spec:
          containers:
          - image: prom/node-exporter
            imagePullPolicy: IfNotPresent
            name: node-exporter
            ports:
            - containerPort: 9100
              hostPort: 9100
              name: scrape
          hostNetwork: true
          hostPID: true

      由于Node Exporter需要能够访问宿主机,因此这里指定了hostNetwork和hostPID,让Pod实例能够以主机网络以及系统进程的形式运行。同时YAML文件中也创建了NodeExporter相应的Service。这样通过Service就可以访问到对应的NodeExporter实例。

    $ kubectl create -f node-exporter-daemonset.yml
    service "node-exporter" created
    daemonset "node-exporter" created

      查看Daemonset以及Pod的运行状态

    $ kubectl get daemonsets
    NAME            DESIRED   CURRENT   READY     UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
    node-exporter   1         1         1         1            1           <none>          15s
    
    $ kubectl get pods
    NAME                               READY     STATUS    RESTARTS   AGE
    ...
    node-exporter-9h56z                1/1       Running   0          51s

      由于Node Exporter是以主机网络的形式运行,因此直接访问MiniKube的虚拟机IP加上Pod的端口即可访问当前节点上运行的Node Exporter实例:

    $ minikube ip
    192.168.99.100
    
    $ curl http://192.168.99.100:9100/metrics
    ...
    process_start_time_seconds 1.5251401593e+09
    # HELP process_virtual_memory_bytes Virtual memory size in bytes.
    # TYPE process_virtual_memory_bytes gauge
    process_virtual_memory_bytes 1.1984896e+08

      目前为止,通过Daemonset的形式将Node Exporter部署到了集群中的各个节点中。接下来,我们只需要通过Prometheus的pod服务发现模式,找到当前集群中部署的Node Exporter实例即可。 需要注意的是,由于Kubernetes中并非所有的Pod都提供了对Prometheus的支持,有些可能只是一些简单的用户应用,为了区分哪些Pod实例是可以供Prometheus进行采集的,这里我们为Node Exporter添加了注解:

    prometheus.io/scrape: 'true'

      由于Kubernetes中Pod可能会包含多个容器,还需要用户通过注解指定用户提供监控指标的采集端口:

    prometheus.io/port: '9100'

      而有些情况下,Pod中的容器可能并没有使用默认的/metrics作为监控采集路径,因此还需要支持用户指定采集路径:

    prometheus.io/path: 'metrics'

      为Prometheus创建监控采集任务kubernetes-pods,如下所示:

      - job_name: 'kubernetes-pods'
        kubernetes_sd_configs:
        - role: pod
        relabel_configs:
        - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
          action: keep
          regex: true
        - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
          action: replace
          target_label: __metrics_path__
          regex: (.+)
        - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
          action: replace
          regex: ([^:]+)(?::\d+)?;(\d+)
          replacement: $1:$2
          target_label: __address__
        - action: labelmap
          regex: __meta_kubernetes_pod_label_(.+)
        - source_labels: [__meta_kubernetes_namespace]
          action: replace
          target_label: kubernetes_namespace
        - source_labels: [__meta_kubernetes_pod_name]
          action: replace
          target_label: kubernetes_pod_name

     

                                      通过Pod模式自动发现Node Exporter实例

      通过以上relabel过程实现对Pod实例的过滤,以及采集任务地址替换,从而实现对特定Pod实例监控指标的采集。需要说明的是kubernetes-pods并不是只针对Node Exporter而言,对于用户任意部署的Pod实例,只要其提供了对Prometheus的支持,用户都可以通过为Pod添加注解的形式为其添加监控指标采集的支持。

     

    5.4 从kube-apiserver获取集群运行监控指标

      在开始正式内容之前,我们需要先了解一下Kubernetes中Service是如何实现负载均衡的,如下图所示,一般来说Service有两个主要的使用场景:

                                    Service负载均衡

    • 代理对集群内部应用Pod实例的请求:当创建Service时如果指定了标签选择器,Kubernetes会监听集群中所有的Pod变化情况,通过Endpoints自动维护满足标签选择器的Pod实例的访问信息;
    • 代理对集群外部服务的请求:当创建Service时如果不指定任何的标签选择器,此时需要用户手动创建Service对应的Endpoint资源。例如,一般来说,为了确保数据的安全,我们通常讲数据库服务部署到集群外。 这是为了避免集群内的应用硬编码数据库的访问信息,这是就可以通过在集群内创建Service,并指向外部的数据库服务实例。

      kube-apiserver扮演了整个Kubernetes集群管理的入口的角色,负责对外暴露Kubernetes API。kube-apiserver组件一般是独立部署在集群外的,为了能够让部署在集群内的应用(kubernetes插件或者用户应用)能够与kube-apiserver交互,Kubernetes会默认在命名空间下创建一个名为kubernetes的服务,如下所示:

    $ kubectl get svc kubernetes -o wide
    NAME                  TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)          AGE       SELECTOR
    kubernetes            ClusterIP   10.96.0.1       <none>        443/TCP          166d      <none>

      而该kubernetes服务代理的后端实际地址通过endpoints进行维护,如下所示:

    $ kubectl get endpoints kubernetes
    NAME         ENDPOINTS        AGE
    kubernetes   10.0.2.15:8443   166d

      通过这种方式集群内的应用或者系统主机就可以通过集群内部的DNS域名kubernetes.default.svc访问到部署外部的kube-apiserver实例。

      因此,如果我们想要监控kube-apiserver相关的指标,只需要通过endpoints资源找到kubernetes对应的所有后端地址即可。

      如下所示,创建监控任务kubernetes-apiservers,这里指定了服务发现模式为endpoints。Promtheus会查找当前集群中所有的endpoints配置,并通过relabel进行判断是否为apiserver对应的访问地址:

        - job_name: 'kubernetes-apiservers'
          kubernetes_sd_configs:
          - role: endpoints
          scheme: https
          tls_config:
            ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
          bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
          relabel_configs:
          - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]
            action: keep
            regex: default;kubernetes;https
          - target_label: __address__
            replacement: kubernetes.default.svc:443

      在relabel_configs配置中第一步用于判断当前endpoints是否为kube-apiserver对用的地址。第二步,替换监控采集地址到kubernetes.default.svc:443即可。重新加载配置文件,重建Promthues实例,得到以下结果。

                                                  apiserver任务状态

     

    5.5 对Ingress和Service进行网络探测

      为了能够对Ingress和Service进行探测,我们需要在集群部署Blackbox Exporter实例。如下所示,创建blackbox-exporter.yaml用于描述部署相关的内容:

    apiVersion: v1
    kind: Service
    metadata:
      labels:
        app: blackbox-exporter
      name: blackbox-exporter
    spec:
      ports:
      - name: blackbox
        port: 9115
        protocol: TCP
      selector:
        app: blackbox-exporter
      type: ClusterIP
    ---
    apiVersion: extensions/v1beta1
    kind: Deployment
    metadata:
      labels:
        app: blackbox-exporter
      name: blackbox-exporter
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: blackbox-exporter
      template:
        metadata:
          labels:
            app: blackbox-exporter
        spec:
          containers:
          - image: prom/blackbox-exporter
            imagePullPolicy: IfNotPresent
            name: blackbox-exporter

      通过kubectl命令部署Blackbox Exporter实例,这里将部署一个Blackbox Exporter的Pod实例,同时通过服务blackbox-exporter在集群内暴露访问地址blackbox-exporter.default.svc.cluster.local,对于集群内的任意服务都可以通过该内部DNS域名访问Blackbox Exporter实例:

    $ kubectl get pods
    NAME                                        READY     STATUS        RESTARTS   AGE
    blackbox-exporter-f77fc78b6-72bl5           1/1       Running       0          4s
    
    $ kubectl get svc
    NAME                        TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)          AGE
    blackbox-exporter           ClusterIP   10.109.144.192   <none>        9115/TCP         3m

      为了能够让Prometheus能够自动的对Service进行探测,我们需要通过服务发现自动找到所有的Service信息。 如下所示,在Prometheus的配置文件中添加名为kubernetes-services的监控采集任务:

        - job_name: 'kubernetes-services'
          metrics_path: /probe
          params:
            module: [http_2xx]
          kubernetes_sd_configs:
          - role: service
          relabel_configs:
          - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_probe]
            action: keep
            regex: true
          - source_labels: [__address__]
            target_label: __param_target
          - target_label: __address__
            replacement: blackbox-exporter.default.svc.cluster.local:9115
          - source_labels: [__param_target]
            target_label: instance
          - action: labelmap
            regex: __meta_kubernetes_service_label_(.+)
          - source_labels: [__meta_kubernetes_namespace]
            target_label: kubernetes_namespace
          - source_labels: [__meta_kubernetes_service_name]
            target_label: kubernetes_name

      在该任务配置中,通过指定kubernetes_sd_config的role为service指定服务发现模式:

       kubernetes_sd_configs:
        - role: service

      为了区分集群中需要进行探测的Service实例,我们通过标签‘prometheus.io/probe: true’进行判断,从而过滤出需要探测的所有Service实例:

           - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_probe]
            action: keep
            regex: true

      并且将通过服务发现获取到的Service实例地址__address__转换为获取监控数据的请求参数。同时将__address执行Blackbox Exporter实例的访问地址,并且重写了标签instance的内容:

          - source_labels: [__address__]
            target_label: __param_target
          - target_label: __address__
            replacement: blackbox-exporter.default.svc.cluster.local:9115
          - source_labels: [__param_target]
            target_label: instance

      最后,为监控样本添加了额外的标签信息:

          - action: labelmap
            regex: __meta_kubernetes_service_label_(.+)
          - source_labels: [__meta_kubernetes_namespace]
            target_label: kubernetes_namespace
          - source_labels: [__meta_kubernetes_service_name]
            target_label: kubernetes_name

      对于Ingress而言,也是一个相对类似的过程,这里给出对Ingress探测的Promthues任务配置作为参考:

          - job_name: 'kubernetes-ingresses'
          metrics_path: /probe
          params:
            module: [http_2xx]
          kubernetes_sd_configs:
          - role: ingress
          relabel_configs:
          - source_labels: [__meta_kubernetes_ingress_annotation_prometheus_io_probe]
            action: keep
            regex: true
          - source_labels: [__meta_kubernetes_ingress_scheme,__address__,__meta_kubernetes_ingress_path]
            regex: (.+);(.+);(.+)
            replacement: ${1}://${2}${3}
            target_label: __param_target
          - target_label: __address__
            replacement: blackbox-exporter.default.svc.cluster.local:9115
          - source_labels: [__param_target]
            target_label: instance
          - action: labelmap
            regex: __meta_kubernetes_ingress_label_(.+)
          - source_labels: [__meta_kubernetes_namespace]
            target_label: kubernetes_namespace
          - source_labels: [__meta_kubernetes_ingress_name]
            target_label: kubernetes_name
  • 相关阅读:
    转Oracle、MySql、SQLServer 数据分页查询
    转 DevExpress-ASPxPageControl 动态添加 TabPage 内容
    淘淘实惠多www.taohuiduo.com-专注独家折扣、1折特卖、9块9包邮、全场包邮
    "命名空间"system.web"中不存在类型或命名空间名称security"错误解决方法
    转摘 Eclipse智能提示及快捷键
    转(C#)Winform中MD5加密
    ComboBoxEdit数据绑定
    格式化日期和时间
    时间格式转换
    如何安装ESXi的补丁
  • 原文地址:https://www.cnblogs.com/lizexiong/p/15582280.html
Copyright © 2011-2022 走看看