zoukankan      html  css  js  c++  java
  • 监控的那些事儿

    不知不觉中,自己已经成了一个老员工。这么多年,基本可以说或大或小,监控都是工作的一部分。负责监控的工作可以说从根本上提升了我的技术能力,但是并不是负责监控就能提升技术能力,最重要的还是自己对自身能力的认同。

    无论是早期的OVO、之前的Nagios或是现在的Zabbix,作为扩展能力较强的监控系统(其实不光光是监控系统)来说,自带的功能能够满足我们需求的70%~80%,那些无法满足的怎么办呢,扔那里么?负责监控,就需要将力所能及的部分都实现了。

    “你的能力有多大,你的责任就有多大”——这句话想必看过《蜘蛛侠》的朋友们都很耳熟。自身的能力如同一个瓶子,大小由你的看法设定,装多少、装什么由你的行动决定。监控的工作就是这样,有些事不是你做就是SA做,做了对能力有提升,做不了的没办法,能做而不想做的只能撇撇嘴了。

    一日,需求分析时,获知要在Windows系统中检测某些cmd脚本的运行情况,处理步骤如下:

    1、查找监控系统是否支持此功能——主要的功能都在脑海中,比较偏门的就不太清楚了,好像有吧——查得支持Linux的,Windows真可怜。

    2、不支持此功能,我们能否通过脚本实现?Windows下脚本环境有BAT、VBS、Powershell、WMI等等,其中一个能够实现就可以了。所谓外事不决问Google,Google不稳定么,HTTPS的总可以了吧,金盾二期依然搞不定HTTPS。网上只要有一个案例就够了。

    3、等等,第2步该我们管么?我们不是只负责监控么——监控工作包含服务器端和客户端,其实SA(系统管理员)应当只提需求的。但是现实是人手依然紧张,部分需求可能SA能够自身完成的我们就拜托给SA了。其他的我们应当尽可能实现,多学一些总是好的。

    因此负责监控的领域知识和专业度要求比较高,比如对Windows的了解,为了要明白监控什么,如何监控,你必须对Windows整体有一个大概的了解,知道那些计数器能够反映什么,知道那些内容是可以通过脚本获取的,哪些不能等等。这些方向,其实前期内部Windows培训都有介绍过,不过很浅而已。

    当然,部分特殊的对象我们可能没有办法监控,比如说某系统页面是用内部的一个网页表示系统状态,使用了红黄绿3个灯,要求监控红灯亮起时的状态——看了下源码,尼玛不管亮不亮,灯所使用的图片名字都不变的……爱莫能助了。

    4、实现之后就要部署,调试等工作在测试环境中做就行了,别拿到正式环境中,否则很难说没有影响,调试出问题那就麻烦大了,切记。

    5、这还没完,部署之后要确保正常监控——也就是说,当SA部署完成后,各项指标应当是正常的,我们不能在部署后监控状态一直处于故障状态(话说首次告警可以检测通知规则配置正常没:)),所以必须要全部正常后才能说监控配置工作完成了。

    6、最后就是总结下,哪些工作做了,哪些工作没做(什么原因),反馈给SA和相关人员确认,至此,工作完成。

    负责监控的我们现在多做一些工作,监控的质量就能提升一些,SA就轻松一些(虽然对于SA能力提升没什么帮助)。

    另外,希望咱们的SA未来都会脚本,Windows下Powershell、BAT、VBS(太多了吧,请联系MS,他们没事就知道乱搞),Linux下主要就是Shell、Python了。脚本能够解决工作中的不少问题。

  • 相关阅读:
    再次或多次格式化导致namenode的ClusterID和datanode的ClusterID之间不一致的问题解决办法
    Linux安装aria2
    POJ 3335 Rotating Scoreboard 半平面交
    hdu 1540 Tunnel Warfare 线段树 区间合并
    hdu 3397 Sequence operation 线段树 区间更新 区间合并
    hud 3308 LCIS 线段树 区间合并
    POJ 3667 Hotel 线段树 区间合并
    POJ 2528 Mayor's posters 贴海报 线段树 区间更新
    POJ 2299 Ultra-QuickSort 求逆序数 线段树或树状数组 离散化
    POJ 3468 A Simple Problem with Integers 线段树成段更新
  • 原文地址:https://www.cnblogs.com/rexkang/p/the-things-of-the-monitor.html
Copyright © 2011-2022 走看看