zoukankan      html  css  js  c++  java
  • 利用superlance监控supervisor运行状态

    此文已由作者张家裕授权网易云社区发布。

    欢迎访问网易云社区,了解更多网易技术产品运营经验。


    最近开发问到supervisor管理下的进程重启了,有无办法做到主动通知,楼主最先想到的是supervisor自带的eventlistener,于是找到了下面的解决方法。

    supervisor与superlance简介

    supervisor是一款非常实用的进程管理工具,可以方便的通过命令开启、关闭、重启等操作,而且它管理的进程一旦崩溃会自动重启。在KM上面已有多篇文章介绍supervisor的优势以及使用技巧,此处对supervisor本身的介绍不予赘述。

    这里主要介绍与supervisor协同工作的的利器superlance,是基于supervisor的事件机制实现的一系列命令行的工具集,它实现了许多supervisor本身没有实现的实用的进程监控和管理的特性,包括内存监控,http接口监控,邮件和短信通知机制等。同样的,superlance本身也是使用python编写的。

    安装

    由于superlance是一个python包,安装起来十分简单,通过easy_install或者pip就可以简单的安装:

    easy_install superlance
    pip install superlance

    当然也可以到github上获得最新的源码(https://github.com/Supervisor/superlance)并安装。

    python setup.py install

    安装后执行以下httpok命令,如果该命令存在,则说明superlance已经正常安装了。

    superlance的组件

    superlance是一系列命令行工具的集合,其包括以下这些命令:

    1. httpok 

      通过定时对一个HTTP接口进行GET请求,根据请求是否成功来判定一个进程是否处于正常状态,如果不正常则对进程进行重启。

    2. crashmail 

      当一个进程意外退出时,发送邮件告警。

    3. memmon 

      当一个进程的内存占用超过了设定阈值时,发送邮件告警。

    4. crashmailbatch 

      类似于crashmail的告警,但是一段时间内的邮件将会被合成起来发送,以避免邮件轰炸。

    5. fatalmailbatch 

      当一个进程没有成功启动多次后会进入FATAL状态,此时发送邮件告警。与crashmailbatch一样会进行合成报警。

    6. crashsms 

      当一个进程意外退出时发送短信告警,这个短信也是通过email网关来发送的。

    实际使用例子:

    注意:在实际配置supervisor使用superlance之前,首先要安装sendmail,superlance使用这个命令行工具来发送email,利用各种包管理工具都可以简单的安装:

    apt-get install sendmail

    crashmail使用介绍

    supervisor的配置内容如下:

    cat /etc/supervisor/conf.d/redis.conf
    [program:redis]
    command=/usr/local/redis/bin/redis-server /home/redis/etc/redis.conf
    directory=/usr/local/redis/bin/
    user=mysql
    autostart = trueautorestart = true#startsecs = 30stopwaitsecs = 1stopsignal = TERM
    redirect_stderr = true
     [eventlistener:redis_monitor]
    command=crashmail -p redis -m zhangjy@corp.netease.com
    events=PROCESS_STATE_EXITED
    redirect_stderr=false


    首先配置了redis进程启动项目,随后配置了一个名为redis_monitor的事件监听器,它接受来自supervisor的PROCESS_STATE_EXITED事件,并且会触发crashmail的命令行调用。 

    PROCESS_STATE_EXITED是在一个supervisor的监控项对应的进程意外退出时会触发的事件,这就使得一个进程出现意外退出的情况下会通知到crashmail。 

    command参数中-p参数配置了crashmail只会对名为redis的监控项作出响应,而-m参数中则配置了崩溃邮件会被发送到的地址。

    配置了上诉配置后,就可通过supervisorctl看到配置的两条内容,一条是redis监控项,另外一条则是事件监听器redis_monitor: 

     使用kill来杀掉redis进程

     收到进程26039退出的邮件通知

    该配置可以在进程重启时通过邮件的方式通知到用户。

    memmon使用介绍 

    这里利用memmon监控进程的内存占用情况,这里有一段测试脚本:

     这段脚本在执行的过程中会出现内存泄露的情况,导致内存占用越来越大,直至无法系统无法再分配内存导致程序异常退出,利用这段脚本我们可以配置一个memmon的事件监听来发出内存泄露的告警。 

    supervisor的配置如下:

    [program:leak]
    command=python /home/zhangjy/memoryleak.py
    user=zhangjy
    directory=/home/zhangjy
    priority=999process_name=%(program_name)s
    numprocs=1autostart = trueautorestart = truestopwaitsecs = 1stopsignal = TERM
    exitcodes=0,2redirect_stderr = falsestdout_logfile_maxbytes = 1024MB
    stdout_logfile_backups = 5stdout_logfile = /home/zhangjy/stdout.log
    stderr_logfile_maxbytes = 1024MB
    stderr_logfile_backups = 5stderr_logfile = /home/zhangjy/stderr.log
     
    [eventlistener:leak_monitor]
    command=memmon -p leak=1MB -m zhangjy@corp.netease.com
    events=TICK_60
    redirect_stderr=false

    这里memmon事件监听器监听的是TICK_60事件,也就是每60秒间隔触发一次的事件,这使得memmon会每60秒检测一次对应的监控项的占用内存情况,这里设置的是监控leak监控项,如果其内存占用超过1MB,则会重启进程,并发送邮件进行告警。 起到该进程后,查看状态

    运行60s后,leak进程的内存占用超过了1MB的告警值, leak的uptime也重置了,说明该进程已经被重启了,使得该进程可以保持正常运行,同时也达到了内存泄露告警的目的。

    可以看到邮箱中收到了告警邮件:

    利用superlance工具可以完成各种各样的告警需求,扩展了supervisor的功能,这些工具的具体使用方法可以参考官方文档:

    https://superlance.readthedocs.org/en/latest/index.html


    免费体验云安全(易盾)内容安全、验证码等服务

    更多网易技术、产品、运营经验分享请点击


    相关文章:
    【推荐】 Java web 服务启动时Xss溢出异常处理笔记
    【推荐】 react技术栈实践(2)

  • 相关阅读:
    Spring IOC
    MyBatis环境搭建
    Spring AOP
    DWR在Spring中应用
    利用反射自动封装成实体对象
    Spring源码下载
    You need to use a Theme.AppCompat theme (or descendant) with this activity解决方法
    由于未能创建 Microsoft Visual C# 2010 编译器,因此未能打开项目 "xxx" ”的解决方法
    正则表达式
    安卓模拟器里面的cpu/abi里面有AMD、intel x86、mlps应该选择哪个
  • 原文地址:https://www.cnblogs.com/163yun/p/9913128.html
Copyright © 2011-2022 走看看