zoukankan      html  css  js  c++  java
  • 封神-核心功能 | 钉钉告警+数据网关

    简介: 封神-核心功能 | 钉钉告警+数据网关

    0.png

    1. 开发背景

    1.1 用户痛点

    ①租户侧运维能力弱
    问题:租户侧,客户没有有效途径,及时地获取实例级的状态、性能、容量的数据。
    现状:每日固定时间,驻场需要人肉收集数据,钉钉定时推送给客户。
    ②问题排查效率低
    问题:应用业务有问题,云平台产品正常,客户并不认可,需要帮助客户解决问题。
    现状:发现应用实例出现性能、容量被打满的问题,这个排查过程往往冗长, 效率很低。
    ③监控能力缺失
    问题:云平台监控不全,容量管理、性能管理等报表能力缺失。
    现状:驻场需要通过大量人肉巡检,或者编写脚本。
    ④监控 方式时效性低
    问题:业务侧总会优先于应用与云平台感知到故障,运维非常被动 。
    现状:客户发现问题,通知应用,应用检查后,再溯源到云平台,排查链路串行并且低效。

    1.2 解决方案

    ①保障业务稳定
    通过云产品的服务能力的变化情况及业务仿真模型的建立,提前预知客户业务健康度,低于基线后便会触发告警。
    ②SLA化展示
    触发阈值自动报警,量化产品健康状况。

    2. 开发设计

    2.1 系统架构

    1.jpg
    图1:系统架构图

    封神系统架构如图1所示,分为CLIENT与SERVER端两大模块。

    • CLINET端:部署在经典网铜雀容器内,通过定时任务控制去采集云内各产品数据。
    • SERVER端:部署在VPC内ECS上,系统框架为FLASK,分为数据处理与数据存储两大部分。

      ①数据处理是指通过提供API接受CLIENT的数据并进行入库操作以及数据的前端展示。
      ②数据存储是指借助阿里云RDS数据库,对数据进行持久化操作作。

    2.2 业务架构

    2.png
    图2:业务架构图

    封神业务架构如如2所示,分为五大板块。

    • 姜子牙:租户侧告警,主要包括ECS、RDS等云产品实例性能以及业务相关告警。
    • 申公豹:运维侧告警,主要包括云产品健康状态、水位容量等相关告警。
    • 雷震子:硬件告警,主要包括坏盘,物理机带外等告警。
    • 比 干:安全告警,主要来自云盾相关安全类告警。
    • 杨 戬:故障告警,主要对各产品数据进行SLA算法处理,设置P0,P1等级故障阈值。

    3. 钉钉告警

    3.1 告警分类

    机器人创建方式可参考文后资料[1]了解详情。

    姜子牙

    姜子牙.png

    申公豹

    申公豹.png

    雷震子

    雷震子.png

    比 干

    比干.png

    杨 戬

    杨戬.png

    3.2 告警展示

    3.jpg
    图3:姜子牙

    4.jpg
    图4:申公豹

    5.jpg
    图5:雷震子

    6.jpg
    图6:比干

    7.jpg
    图7:杨戬-1
    7-2.jpg
    图7:杨戬-2
    7-3.jpg
    图7:杨戬-3
    7-4.jpg
    图7:杨戬-4

    4. 数据网关

    数据网关分为两大模块:获取数据、接收数据。

    • 获取数据分为告警数据、全量数据、性能数据。

      ①告警数据:分别对应钉钉机器人推送的告警信息,封装成相应的数据格式,以API接口形式对外提供数据。
      ②全量数据:数据库源表数据,不做任何加工处理,以API接口形式对外提供数据,可操作性较高。
      ③性能数据:产品性能数据会定期存储到时序数据库,存储时间长,可查询历史性能数据。

    • 接收数据:提供对外API接收客户自定义监控数据,封装成MARKDOWN格式,实时进行钉钉告警。

    4.1 获取数据

    4.1.1 告警数据
    4.1.1.1 请求接口

    请求方式:POST请求
    URL地址: http://{ip}:{port}/api/v1/search/monitor
    ip:封神ecs_ip
    port:9170
    PARAM:参数列表可查看文后资料[2]了解详情。

    FDFAE04A-E7F5-486f-80FF-157DF015BB04.png

    4.1.1.2 DEMO
    import sys
    import requests
    url = "http://{ip}:{port}/api/v1/search/monitor/"
    data = {"product":"MQ", "title":"积压告警", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"}
    res = requests.post(url=url, json=data)
    print res.content
    curl -H "Content-Type:application/json" 
    -X POST -d '{"type":"ALL"}' http://{ip}:{port}/api/v1/search/monitor/
    4.1.1.3 数据返回

    2D73B472-DCD0-49ec-A2F5-C704FBAA5EE1.png

    ①当前存在告警
    {"code":0, "data":[{"info":"0.0.0.0,ecs,95% 0.0.0.1,ecs,95% ", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor_time":"2020-01-14 00:00:00", "columns":"IP,产品,值"}]}
    ②当前未存在告警数据(告警恢复正常)
    {"code":0, "data":[{"info":"", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor_time":"2020-01-14 00:00:00", "columns":"IP,产品,值"}]}
    ③未查询到数据:
    {"code":0, "data":[]}
    ④查询异常:
    {"code":500, "data":"异常信息"}

    4.1.2 全量数据
    4.1.2.1 请求接口

    请求方式:POST请求
    URL地址: http://{ip}:{port}/api/v1/search/data/
    ip:封神ecs_ip
    port:9170
    PARAM:参数列表可查看文后资料[2]了解详情。

    3320A3E9-D21D-4607-909F-9417EAC3EF05.png

    4.1.2.2 DEMO
    import sys
    import requests
    url = "http://{ip}:{port}/api/v1/search/data/"
    data = {"product":"MQ", "title":"TIME", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"}
    res = requests.post(url=url, json=data)
    print res.content
    4.1.2.3 数据返回

    04CC8D1A-F631-49c7-B984-F9004B6BD6BE.png

    4.1.3 性能数据
    4.1.3.1 请求接口

    请求方式:POST请求
    URL地址: http://{ip}:{port}/api/v1/influxdb_query/
    ip:封神ecs_ip
    port:9170
    PARAM:参数为INFLUXDB SQL

    68A2A74A-E348-4e6f-B369-F680C7A22C46.png

    4.1.3.2 DEMO
    import sys
    import requests
    url = "http://{ip}:{port}/api/v1/influxdb_query/"
    data = {"sql":"infudb sql"}
    res = requests.post(url, data)
    print res.content
    4.1.3.3 数据返回

    04CC8D1A-F631-49c7-B984-F9004B6BD6BE.png

    4.2 接收数据

    4.2.1 请求接口

    请求方式:POST请求
    URL地址:http://{ip}:{port}/api/v1/insert/third
    ip:封神ecs_ip
    port:9170
    PARAM:

    D0563272-CFDE-4776-AC6D-94D1B29070D7.png

    4.2.2 DEMO
    import sys
    import requests
    url = "http://172.0.0.1:9170/api/v1/insert/third/"
    data = {"title":"ecs性能监控", "level":"预警", "source":"云监控", "product":"ecs", "msg":"ip:10.0.0.1 cpu:98% ip:127.0.0.1 mem:99%", "robot":"姜子牙", "submitor":"高德臣", "monitor_time":"2021-03-10 16:00:00", "details":"兄弟 关注下"}
    res = requests.post(url=url, json=data)
    print res.text
    4.2.3 告警展示

    8.jpg
    图8:告警展示图

    参考文章

    [1] 封神榜部署前置检查:https://yuque.antfin-inc.com/docs/share/d3a743db-af85-47d2-89c5-4f22eb1693c5?
    [2] 获取封神数据-三方API:https://yuque.antfin-inc.com/docs/share/2037fbb2-35fa-42ad-8476-ec7502e9ed33?#

    原文链接
    本文为阿里云原创内容,未经允许不得转载。

  • 相关阅读:
    Redis 连接命令
    Redis 脚本
    Redis 事务
    Redis 发布订阅
    Redis HyperLogLog
    Redis 有序集合(sorted set)
    Redis 集合(Set)
    Redis 列表(List)
    Redis 哈希(Hash)
    特定消费者的限制流量
  • 原文地址:https://www.cnblogs.com/yunqishequ/p/14841345.html
Copyright © 2011-2022 走看看