监控系统的介绍
性能优化和监控点
1.cpu
调度器 有效的分配cpu的时间片
上下文切换
运行队列
cpu使用率
2.io
网络io iftop ss -tnl
磁盘io iotop
3.内存
不同的服务类型对 cpu和内存和io的 使用量是不同的
监控系统几大步骤
1.确定需要监控什么指标
2.确认需要监控的服务类型 不同的业务监控的关注点不一样
3.确认监控的基准线 和监控的数据进行对比
4.监控工具的选择
监控的指标 metrics
1. 硬件资源 cpu占用率 内存占用率 磁盘占用率
2. 系统级别
3. 应用级别 各种应用程序 nginx mysql
4. 程序业务数据级别 应用程序返回的数据是否符合预期
监控系统的功能
数据采集
数据存储
数据可视化
异常数据报警
监控的对象
硬件
服务器 路由器 交换机 各种存储设备
软件
操作系统 应用程序 各个节点的网络连通性
事故
磁盘占用率 cpu占用率
监控结果
判断一个监控项是否是处于异常状态不能单独的依靠一次的采集结果来判断 有下面两种判定方式
1.一段时间内的采样结果
2.最近多次的采样结果
监控数据的分类
1.历史数据 某个监控项在某个时间点采集的数据 不适合长期保存
2.趋势数据 某个监控项在一段时间内的整体趋势由历史数据分析而成 适合长期保存
IPMI 智慧平台管理接口
独立于操作系统存,硬件级别完成数据采集 即使操作系统不能启动,照样能够通过IPMI完成服务器状态的监控
需要监控的对象
zabbix基础概念
主机(host) -> 主机组(host group)
监控项(item) -> 应用(application)
触发器(trigger) -> 阈值 不同告警级别
动作(action)
宏变量
字符串变量 多处地方引用 直接可以在模板中使用${HTTP_PORT}代替数字80,当端口发生变化的时候只需要修改宏变量所有引用的地方都会自动修改
依赖关系
反应了网络中设备之间的依赖关系
如当网络中路由器发生故障的时候,只需要路由器发送告警信息即可,所有依赖路由器的主机则不再需要进行告警了
安装zabbix的master 1.rpm -i https://repo.zabbix.com/zabbix/3.4/rhel/7/x86_64/zabbix-release-3.4-2.el7.noarch.rpm 2.zcat /usr/share/doc/zabbix-server-mysql*/create.sql.gz | mysql -uzabbix -p zabbix 3.yum install zabbix-server-mysql zabbix-web-mysql zabbix-agent 4.vi /etc/httpd/conf.d/zabbix.conf 5.vi /etc/zabbix/zabbix_server.conf 6.systemctl start zabbix-server 安装zabbix的agent 1.rpm -i https://repo.zabbix.com/zabbix/3.4/rhel/7/x86_64/zabbix-release-3.4-2.el7.noarch.rpm 2.yum install zabbix-agent zabbix-sender 3.vi /etc/zabbix/zabbix_agentd.conf 4.systemctl start zabbix-agent zabbix的web依赖于以下服务 systemctl start mariadb systemctl start httpd
如果我们需要对某台机器进行监控,还需要在被监控的机器上面安装zabbix客户端,这样才能进行监控 第一、导入源 rpm -ivh http://repo.zabbix.com/zabbix/3.0/rhel/7/x86_64/zabbix-release-3.0-1.el7.noarch.rpm 第二、安装客户端 sudo yum install zabbix-agent 第三、配置客户端 vi /etc/zabbix/zabbix_agentd.conf 修改此文件中的下面三个值 Server=192.168.92.8 //安装zabbix服务端的机器的IP ServerActive=192.168.92.8 //安装zabbix服务端的机器的IP Hostname=09 //随便起,我这以被监控的机器的ip作为Hostname
zabbix常用术语
host(主机):要监控的网络设备,可由IP或DNS名称指定
host group(主机组):主机的逻辑容器,可以包含主机和模板,但同一个组内的主机和模板不能互相链接;主机组通常在给用户或用户组指派监控权限时使用(大致了解下就可以了)。
item(监控项):这个从名字上可以理解,具体要监控哪些指标由它定义。
trigger(触发器):就是超过了定义的合理范围,这家伙就会报警。
event(事件):这都是触发器产生的。
action(动作):对事件如何应对,比如要执行哪些操作。
escalation(报警升级):如果在定义的5分钟没反应,从warning级别升到high级别,就是要提醒别人要尽快处理。
media(媒介):发送报警的手段和通道,如Email。
remote command(远程命令):预定义的命令,可在被监控主机处于某个特定条件下时自动执行。
template(模板):用于快速定义被监控主机的预设条目集合,通常包含了item、trigger、graph、screen、application以及low-level discovery rule;模板可以直接链接至单个主机。(这个概念不理解不过没关系的,只要具体会怎么操作就可以了)
application(应用):一组item的集合。
安装服务的通用步骤
1.配置好相关仓库
2.安装数据库配置一个有相关权限的用户名和密码 创建一个数据库
3.安装软件服务
4.修改软件主配置文件 rpm -ql zabbix
5.启动服务 查看是否成功监听相关端口