6.1 主动模式
zabbix agent检测分为主动(agent active)和被动(agent)两种形式,主动与被动的说法均是相对于agent来讨论的。简单说明一下主动与被动的区别如下:
主动:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy
被动:server向agent请求获取监控项的数据,agent返回数据。
zabbix agent通信过程中的协议均基于json格式,格式如下:
1
2
|
- "ZBXDx01" (5 bytes)
- data length (8 bytes). 1 will be formatted as 01/00/00/00/00/00/00/00 (eight bytes in HEX, 64 bit number)
|
备注:为了避免内存耗尽,server限制每个通信连接最多使用128MB内存。
被动检测
server发起如下请求
1
|
<item key>n
|
Aegent返回如下响应数据
1
|
<HEADER><DATALEN><DATA>[0<ERROR>]
|
supported items通信过程
- Server打开一个TCP连接
- Server发送请求agent.ping
- Agent接收到请求并且响应<HEADER><DATALEN>1
- Server处理接收到的数据1
- 关闭TCP连接
not supported items通信过程
- Server打开一个TCP连接
- Server发送请求vfs.fs.size[/nono]
- Agent接收请求并且返回响应数据 <HEADER><DATALEN>ZBX_NOTSUPPORTED Cannot obtain filesystem information: [2] No such file or directory
- Server接收并处理数据, 将item的状态改为“ not supported ”
- 关闭TCP连接
主动检测
如前面所说,zabbix首先向ServerActive配置的IP请求获取active items,获取并提交active tiems数据值server或者proxy。很多同学会提出疑问:zabbix多久获取一次active items?它会根据配置文件中的RefreshActiveChecks的频率进行,如果获取失败,那么将会在60秒之后重试
获取ACTIVE ITEMS列表
Agent请求
1
2
3
4
|
<HEADER><DATALEN>{
"request":"active checks",
"host":"<hostname>"
}
|
Server响应列表
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
<HEADER><DATALEN>{
"response":"success",
"data":[
{
"key":"log[/home/zabbix/logs/zabbix_agentd.log]",
"delay":30,
"lastlogsize":0,
"mtime":0
},
{
"key":"agent.version",
"delay":600,
"lastlogsize":0,
"mtime":0
},
{
"key":"vfs.fs.size[/nono]",
"delay":600,
"lastlogsize":0,
"mtime":0
}
]
}
|
备注:获取到的items列表中的所有item属性key, delay, lastlogsize ,mtime都必须存在,获取列表的通信过程如下:
- Agent打开TCP连接(主动检测变成Agent打开)
- Agent请求items检测列表
- Server返回items列表
- Agent 处理响应
- 关闭TCP连接
- Agent开始收集数据
提交active items数据
Agent发送请求
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
<HEADER><DATALEN>{
"request":"agent data",
"data":[
{
"host":"<hostname>",
"key":"agent.version",
"value":"2.4.0",
"clock":1400675595,
"ns":76808644
},
{
"host":"<hostname>",
"key":"log[/home/zabbix/logs/zabbix_agentd.log]",
"lastlogsize":112,
"value":" 19845:20140621:141708.521 Starting Zabbix Agent [<hostname>]. Zabbix 2.4.0 (revision 50000).",
"clock":1400675595,
"ns":77053975
},
{
"host":"<hostname>",
"key":"vfs.fs.size[/nono]",
"state":1,
"value":"Cannot obtain filesystem information: [2] No such file or directory",
"clock":1400675595,
"ns":78154128
}
],
"clock": 1400675595,
"ns": 78211329
}
|
Server响应数据
1
2
3
4
|
{
"response":"success",
"info":"processed: 3; failed: 0; total: 3; seconds spent: 0.003534"
}
|
备注:如果有些数据提交失败,比如host、item被删除或者禁用,agent不会尝试从新提交
主动检测提交数据过程如下:
- Agent建立TCP连接
- Agent提交items列表收集的数据
- Server处理数据,并返回响应状态
- 关闭TCP连接
ServerActive 为主动模式 ,agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy
(1) 主动模式应用场景
当我们的zabbix监控平台监控服务器过多,监控项过多的情况下,管理平台会出现以下情况:
1、管理页面打开缓慢、卡顿,数据加载超时、出现502的情况
2、开启的进程(Pollar)太多,即使减少item数量,以后加入一定量的机器也会有问题
解决办法:
1、增加Proxy节点做分布式监控
2、调整Agentd为主动模式
(2)工作原理
Agent向Server建立一个TCP连接
Agent请求需要检测的数据列表
Server响应Agent,发送一个Items列表
Agent允许响应
TCP连接完成本次会话关闭
Agent开始周期性地收集数据
(3) 主动模式配置
LogFile=/var/log/zabbix/zabbix_agentd.log
StartAgents=0 开启主动模式
ServerActive=10.10.10.10
HostnameItem=system.hostname
6.2 被动模式
Server为被动模式,server向agent请求获取监控项的数据,agent返回数据。
(1)工作原理
被动模式工作流程:
Server 打开一个TCP连接
Server发送一个key 为agent.ping
Agent接受这个请求,然后响应<HEADER><DATALEN>1
Server对接受到的数据进行处理
TCP连接关闭
(2)配置方法
LogFile=/var/log/zabbix/zabbix_agentd.log
Server=10.10.10.10
HostnameItem=system.hostname
7、修改配置文件
shell>vim /usr/local/zabbix_agentd/etc/zabbix_agentd.conf
1、根据需求选择主动被动,
2、因为zabbix监控模板默认使用的就是被动模式,所以zabbix-server端直接添加hosts默认使用的就是被动模式。
8、启动zabbix_agentd 服务
shell>/etc/init.d/zabbix_agentd start
被动模式验证:
shell> netstat -tunlp | grep zabbix
tcp 0 0 0.0.0.0:10050 0.0.0.0:* LISTEN 30131/zabbix_agentd
主动模式验证:
shell>ps -ef | grep zabbix
表明安装成功
9、如果需要使用主动模式,且需要使用模版的
1、 配置--模板--Template OS Linux,选择Template OS Linux 全克隆
2、重命名新克隆的模版为Template OS Linux_active
3、配置--模版--Template OS Linux_active--链接的模版--取消Template App Zabbix Agent链接--更新
4、配置--模版--Template OS Linux_active--监控项--全选监控项--批量更新
监控项目为主动监控项
5、配置--主机--创建主机 --链接的模版--选择Template OS Linux_active--添加--更新
注意:主机名与配置文件Hostname=test一致
6、主动模式添加完成后ZBX不显示绿色灯,检测中--最新数据--可以查看到数据即可
添加完成后,发现绿色灯不亮是正常的,只要监控有数据就行。