zoukankan      html  css  js  c++  java
  • clickhouse-(06)-基于Grafana监控

    利用Grafana与系统表监控ClickHouse查询

    前言

    我们往往需要关心数据库的查询执行情况,特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。

    开启查询日志

    打开各个ClickHouse实例的users.xml,在当前使用的profile(如default)中加入:

    <log_queries>1</log_queries>
    

    再去各个ClickHouse实例的config.xml中检查一下查询日志的配置,以下是默认启用的配置:

    <query_log>
        <database>system</database>
        <table>query_log</table>
        <partition_by>toYYYYMM(event_date)</partition_by>
        <flush_interval_milliseconds>7500</flush_interval_milliseconds>
    </query_log>
    
    <trace_log>
        <database>system</database>
        <table>trace_log</table>
        <partition_by>toYYYYMM(event_date)</partition_by>
        <flush_interval_milliseconds>7500</flush_interval_milliseconds>
    </trace_log>
    
    <query_thread_log>
        <database>system</database>
        <table>query_thread_log</table>
        <partition_by>toYYYYMM(event_date)</partition_by>
        <flush_interval_milliseconds>7500</flush_interval_milliseconds>
    </query_thread_log>
    

    其中,partition_by表示查询日志表的分区列,语法与普通建表时相同,默认按月分区。flush_interval_milliseconds则表示日志刷入表中的周期,默认7.5秒。按需修改后,重启ClickHouse实例,就会自动在system库中创建对应的系统表,并写数据。

    关于查询日志表(以及其他系统表)中各列的含义,可参见官方文档,非常详细。

    创建分布式表、设定TTL

    在集群中执行以下语句,创建query_log的分布式表query_log_all,这样才能正确统计所有节点的查询日志。

    CREATE TABLE IF NOT EXISTS system.query_log_all
    ON CLUSTER sht_ck_cluster_pro
    AS system.query_log
    ENGINE = Distributed(sht_ck_cluster_pro,system,query_log,rand());
    

    查询日志表没有自动过期功能,为了防止日志太多占用大量磁盘空间,可以手动为每张query_log表设定TTL。建议也给其他系统日志表配置上TTL。

    ALTER TABLE system.query_log
    MODIFY TTL event_date + INTERVAL 15 DAYS;
    

    下载、安装、启动Grafana

    wget https://dl.grafana.com/oss/release/grafana-6.7.4-1.x86_64.rpm
    yum -y localinstall grafana-6.7.4-1.x86_64.rpm
    service grafana-server start
    

    访问<grafana_ip>:3000即可。

    安装与添加ClickHouse DataSource

    ClickHouse DataSource是由Vertamedia开发的第三方插件(这家公司也开源了负载均衡组件CHProxy)。直接用grafana-cli安装之。

    grafana-cli plugins install vertamedia-clickhouse-datasource
    

    然后在Grafana中添加数据源。

    img

    配置Grafana Dashboard

    以慢查询为例。先添加一个Query,指定库名、表名、日期列和时间列。

    img

    然后点击Go to Query按钮,写入如下SQL语句。

    SELECT
      query,
      avg(query_duration_ms) AS duration_avg,
      max(query_duration_ms) AS duration_max,
      count() AS query_count
    FROM $table
    WHERE $timeFilter
    AND type = 2
    AND positionCaseInsensitive(query,'%system.%') = 0
    GROUP BY query
    ORDER BY duration_max DESC
    LIMIT 10
    

    $table和$timeFilter都是ClickHouse DataSource预置的宏,可以参见上面给出的传送门。然后,将Format as选项设定为Table,就可以看到指定时间段内的慢查询top 10了。截图会涉及到敏感业务数据,就不贴了。

    再举个例子,绘制QPS的折线图,SQL语句如下。

    $rate(count() AS q)
    FROM $table
    WHERE $timeFilter
    AND type = 2
    AND positionCaseInsensitive(query,'%system.%') = 0
    

    $rate是什么鬼?这个是ClickHouse DataSource提供的内置函数,上面的SQL语句在实际请求时会转化成以下的语句。

    SELECT t, q / runningDifference(t / 1000) qRate FROM (   SELECT (intDiv(toUInt32(event_time), 5) * 5) * 1000 AS t,   count() AS q   FROM system.query_log_all   WHERE event_date >= toDate(1592905770)   AND event_time >= toDateTime(1592905770)    AND type = 2   AND positionCaseInsensitive(query,'%system.%') = 0   GROUP BY t   ORDER BY t)
    

    可见是先以5秒步长分组并统计查询数,再借助runningDifference()函数推导出两行之间时间的增量,进而得到QPS。在Grafana面板中可以通过调整"Resolution"参数来修改步长,如设定为1/4,步长就是20秒。

    The End

    作者:LittleMagic
    链接:https://www.jianshu.com/p/6ffd403c249a
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 相关阅读:
    部分模块
    正则表达式和re模块
    软件开发的目录规范
    模块以及模块的导入
    迭代器、可迭代对象、迭代器对象、生成器、生成器表达式和相关的面试题
    内置方法补充
    递归、二分法、匿名函数和部分内置方法
    python的闭包和装饰器
    函数名本质、函数命名空间和作用域链
    函数简介和函数的结构分析
  • 原文地址:https://www.cnblogs.com/weijiqian/p/14853231.html
Copyright © 2011-2022 走看看