【项目描述】中国移动总公司有大量的服务器承载业务,需要随时掌握服务器的健康状况,人工查看设备健康状况耗时,且容易疏忽。需开发一套能自动巡检服务器健康状态,服务器发生告警或故障时,能及时通过邮件、短信、微信的方式通知相关人员处理。能随时查看整体服务集群的运行及健康状态。
【责任描述】担任项目负责人,负责项目设计,项目整体进度,确保项目按时上线。
【项目实现】
1.服务器管理:录入服务器ip、端口、用户名、密码(加密)等服务器基础信息,可批量导入
2.指标管理:各种检查服务器状态的命令,设置对应的分值(例如cpu的负载,大于等于100,此时服务器不可用,分值100;网络丢包,不影响使用,分值10分)
3.任务管理:服务器分组和指标关联,并定时调度,使用ansible技术,对脚本命令进行批量发送和批量解析返回结果,未返回预期结果的服务器扣除指标对应的分值
4.首页:对所有主机得分进行倒序排列,可以很容易找到得分低(不稳定)的服务器,其他信息:如线形图展示不稳定服务器数量等
点击空白处退出提示
评论