kube-state-metrics 详解

zoukankan html css js c++ java

kube-state-metrics 详解
原文：https://mp.weixin.qq.com/s/176eyFBknzdA5wpiJrxDSg

概述

已经有了 cadvisor、heapster、metric-server，几乎容器运行的所有指标都能拿到，但是下面这种情况却无能为力：
- 我调度了多少个 replicas？现在可用的有几个？
- 多少个 Pod 是 running/stopped/terminated 状态？
- Pod 重启了多少次？
- 我有多少 job 在运行中
而这些则是 kube-state-metrics 提供的内容，它基于 client-go 开发，轮询 Kubernetes API，并将 Kubernetes的结构化信息转换为metrics。

功能

kube-state-metrics 提供的指标，按照阶段分为三种类别：
- 1.实验性质的：k8s api 中 alpha 阶段的或者 spec 的字段。
- 2.稳定版本的：k8s 中不向后兼容的主要版本的更新
- 3.被废弃的：已经不在维护的。
指标类别包括：

- CronJob Metrics

- DaemonSet Metrics

- Deployment Metrics

- Job Metrics

- LimitRange Metrics

- Node Metrics

- PersistentVolume Metrics

- PersistentVolumeClaim Metrics

- Pod Metrics

- Pod Disruption Budget Metrics

- ReplicaSet Metrics

- ReplicationController Metrics

- ResourceQuota Metrics

- Service Metrics

- StatefulSet Metrics

- Namespace Metrics

- Horizontal Pod Autoscaler Metrics

- Endpoint Metrics

- Secret Metrics

- ConfigMap Metrics

以 Pod 为例：

- kube_pod_info

- kube_pod_owner

- kube_pod_status_phase

- kube_pod_status_ready

- kube_pod_status_scheduled

- kube_pod_container_status_waiting

- kube_pod_container_status_terminated_reason

- ...

使用

部署清单地址：https://github.com/kubernetes/kube-state-metrics/tree/master/kubernetes

主要镜像有： image: quay.io/coreos/kube-state-metrics:v1.5.0 image: k8s.gcr.io/addon-resizer:1.8.3（参考metric-server文章，用于扩缩容）

对于pod的资源限制，一般情况下：

200MiB memory 0.1 cores

超过100节点的集群：

2MiB memory per node 0.001 cores per node

kube-state-metrics 做过一次性能优化，具体内容参考下文

部署成功后，prometheus的target会出现如下标志

因为 kube-state-metrics-service.yaml 中有 prometheus.io/scrape:'true'标识，因此会将 metric 暴露给 Prometheus，而 Prometheus 会在 kubernetes-service-endpoints 这个 job 下自动发现kube-state-metrics，并开始拉取 metrics，无需其他配置。

使用 kube-state-metrics 后的常用场景有：
- 存在执行失败的 Job: kube_job_status_failed{job="kubernetes-service-endpoints",k8s_app="kube-state-metrics"}==1
- 集群节点状态错误: kube_node_status_condition{condition="Ready",status!="true"}==1
- 集群中存在启动失败的 Pod： kube_pod_status_phase{phase=~"Failed|Unknown"}==1
- 最近30分钟内有 Pod 容器重启: changes(kube_pod_container_status_restarts[30m])>0
配合报警可以更好地监控集群的运行

与metric-server的对比
- metric-server（或heapster）是从 api-server 中获取 cpu、内存使用率这种监控指标，并把他们发送给存储后端，如 influxdb 或云厂商，他当前的核心作用是：为 HPA 等组件提供决策指标支持。
- kube-state-metrics 关注于获取 k8s 各种资源的最新状态，如 deployment 或者 daemonset，之所以没有把kube-state-metrics 纳入到 metric-server 的能力中，是因为他们的关注点本质上是不一样的。metric-server仅仅是获取、格式化现有数据，写入特定的存储，实质上是一个监控系统。而 kube-state-metrics 是将 k8s 的运行状况在内存中做了个快照，并且获取新的指标，但他没有能力导出这些指标
- 换个角度讲，kube-state-metrics 本身是 metric-server 的一种数据来源，虽然现在没有这么做。
- 另外，像 Prometheus 这种监控系统，并不会去用 metric-server 中的数据，他都是自己做指标收集、集成的（Prometheus包含了metric-server的能力），但 Prometheus 可以监控 metric-server 本身组件的监控状态并适时报警，这里的监控就可以通过 kube-state-metrics 来实现，如 metric-server pod 的运行状态。
深入解析

kube-state-metrics 本质上是不断轮询 api-server，代码结构也很简单，主要代码目录：
1. .
2. ├── collectors
3. │ ├── builder.go
4. │ ├── collectors.go
5. │ ├── configmap.go
6. │ ......
7. │ ├── testutils.go
8. │ ├── testutils_test.go
9. │ └── utils.go
10. ├── constant
11. │ └── resource_unit.go
12. ├── metrics
13. │ ├── metrics.go
14. │ └── metrics_test.go
15. ├── metrics_store
16. │ ├── metrics_store.go
17. │ └── metrics_store_test.go
18. ├── options
19. │ ├── collector.go
20. │ ├── options.go
21. │ ├── options_test.go
22. │ ├── types.go
23. │ └── types_test.go
24. ├── version
25. │ └── version.go
26. └── whiteblacklist
27. ├── whiteblacklist.go
28. └── whiteblacklist_test.go
所有类型：
1. var (
2. DefaultNamespaces = NamespaceList{metav1.NamespaceAll}
3. DefaultCollectors = CollectorSet{
4. "daemonsets": struct{}{},
5. "deployments": struct{}{},
6. "limitranges": struct{}{},
7. "nodes": struct{}{},
8. "pods": struct{}{},
9. "poddisruptionbudgets": struct{}{},
10. "replicasets": struct{}{},
11. "replicationcontrollers": struct{}{},
12. "resourcequotas": struct{}{},
13. "services": struct{}{},
14. "jobs": struct{}{},
15. "cronjobs": struct{}{},
16. "statefulsets": struct{}{},
17. "persistentvolumes": struct{}{},
18. "persistentvolumeclaims": struct{}{},
19. "namespaces": struct{}{},
20. "horizontalpodautoscalers": struct{}{},
21. "endpoints": struct{}{},
22. "secrets": struct{}{},
23. "configmaps": struct{}{},
24. }
25. )
构建对应的收集器

Family即一个类型的资源集合，如 job 下的 kubejobinfo、kubejobcreated，都是一个 FamilyGenerator 实例
1. metrics.FamilyGenerator {
2. Name: "kube_job_info",
3. Type: metrics.MetricTypeGauge,
4. Help: "Information about job.",
5. GenerateFunc: wrapJobFunc(func(j *v1batch.Job) metrics.Family {
6. return metrics.Family{&metrics.Metric{
7. Name: "kube_job_info",
8. Value: 1,
9. }}
10. }),
11. },
12. func (b *Builder) buildCronJobCollector() *Collector {
13. // 过滤传入的白名单
14. filteredMetricFamilies := filterMetricFamilies(b.whiteBlackList, cronJobMetricFamilies)
15. composedMetricGenFuncs := composeMetricGenFuncs(filteredMetricFamilies)
16. // 将参数写到header中
17. familyHeaders := extractMetricFamilyHeaders(filteredMetricFamilies)
18. // NewMetricsStore实现了client-go的cache.Store接口，实现本地缓存。
19. store := metricsstore.NewMetricsStore(
20. familyHeaders,
21. composedMetricGenFuncs,
22. )
23. // 按namespace构建Reflector，监听变化
24. reflectorPerNamespace(b.ctx, b.kubeClient, &batchv1beta1.CronJob{}, store, b.namespaces, createCronJobListWatch)
26. return NewCollector(store)
27. }
性能优化：

kube-state-metrics 在之前的版本中暴露出两个问题：
- 1./metrics 接口响应慢(10-20s)
- 2.内存消耗太大，导致超出 limit 被杀掉
问题一的方案就是基于 client-go 的 cache tool 实现本地缓存，具体结构为：
1. var cache = map[uuid][]byte{}
问题二的的方案是：对于时间序列的字符串，是存在很多重复字符的（如 namespace 等前缀筛选），可以用指针或者结构化这些重复字符。

优化点和问题
- 1.因为 kube-state-metrics 是监听资源的 add、delete、update 事件，那么在 kube-state-metrics 部署之前已经运行的资源，岂不是拿不到数据？kube-state-metric 利用 client-go 可以初始化所有已经存在的资源对象，确保没有任何遗漏
- 2.kube-state-metrics 当前不会输出 metadata 信息(如 help 和 description）
- 3.缓存实现是基于 golang 的 map，解决并发读问题当期是用了一个简单的互斥锁，可以解决问题，后续会考虑golang 的 sync.Map 安全 map。
- 4.kube-state-metrics 通过比较 resource version 来保证 event 的顺序
- 5.kube-state-metrics 并不保证包含所有资源
查看全文

相关阅读:
个人理解的块状格式化上下文
 行框与浮动与清除浮动
 关于offset,scroll,position
C++常用字符串操作和UTF-8和GBK之间的转换以及判定（转）
MFC使用LoadBitmap方法加载位图文件失败解决方案（转）
MFC在子线程中创建窗口（PostMessage方法）
MFC线程间消息传递（转）
MFC对话框常用操作文章收藏
 C++ 跨dll传递string类型参数执行出错问题
 C++ windows API函数末尾A和W的意义（转）

原文地址：https://www.cnblogs.com/robinunix/p/11169200.html

kube-state-metrics 详解

概述

功能

使用

与metric-server的对比

深入解析

优化点和问题