Zabbix监控虚拟机服务-告警与自动恢复

被集群节点负载不均所困扰?TKE 重磅推出全链路调度解决方案

今天稍微空闲,使用下zabbix的5.0版本,目前生产环境是4.x版本

今天就只实现一个目的:监控任意一个服务(示例中监控的是docker.service),如果服务挂了,自动给恢复,先看一个动图

 

搭建步骤:

192.168.1.3是zabbixServer(还安装了Apache、mysql、也一并安装了agent)

安装步骤请参考官网:https://www.zabbix.com/download?zabbix=5.0&os_distribution=centos&os_version=7&db=mysql&ws=apache

其中有一步是安装mysql,参考我的笔记,单节点即可:https://note.youdao.com/ynoteshare1/index.html?id=c7c40773df025a55610053d8d8c83b97&type=note

 

192.168.1.4是agent

由于只需要安装agent,所以步骤就会少很多,大致就下面几步

rpm -Uvh https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm
yum clean all
yum install zabbix-agent

#修改agent配置 /etc/zabbix/zabbix_agentd.conf
vi /etc/zabbix/zabbix_agentd.conf
Server=192.168.1.3         #修改为zabbixServer地址
ServerActive=192.168.1.3   #修改为zabbixServer地址
Hostname=ZabbixAgent4      #这个名称会在创建host的时候被用到,各个节点要做区分
Timeout=10 (默认为3)

systemctl restart zabbix-agent
systemctl enable zabbix-agent

通过上述步骤,zabbix agent 、server都启动好了

下一步通过界面去添加host

 

 

 注意:主机名称一定要和zabbix_agentd.conf中配置的完全一样,太鸡肋

 

然后就发现,为什么新加入的agent状态是未知的呢

 

 

 

 

 

经过测试,给主机增加对应的template

 

 然后稍等会儿,就发现主机都可用了

 

 

开源物联网平台和智能家居平台

服务的监控与恢复

首先我在192.168.1.4上安装了docker服务,下面我们就通过zabbix来监控docker服务的状态,若异常产生告警并自动恢复

1.创建监控项:就用自带的system.run执行一个shell命令即可

system.run[systemctl status docker |grep 'active (running)' |wc -l]

 

 

最底部有测试,配置完成前先测试下命令是否能被正确执行

 

 

只有监控项还不能监控,需要将监控项应用到触发器才行。 触发器提供了表达式构造器,可以直接使用监控项生成对应的表达式

 

 创建好后如下

 

 保存后,去将192.168.1.4上的docker服务停了就会在首页看见告警了

 

 但是这个告警会一直存在,因为服务没有自动恢复

 

下一步就是配置自动恢复,自动恢复在动作中配置即可

 

 

 

 

 

 

 

 

 这样,再去停掉docker服务,会发现警告出现后,服务马上就自动恢复了

高德地图驾车导航内存优化原理与实战

相关推荐

发表评论

路人甲

网友评论(0)