企业业务集群规模持续扩张,服务器、中间件及接口服务数量激增,传统运维监测手段覆盖不全、响应滞后,故障发现与定位效率偏低。为保障业务稳定运行、缩短排障时长,搭建统一集群运维监控平台势在必行。
点击空白处退出提示
企业业务集群规模持续扩张,服务器、中间件及接口服务数量激增,传统运维监测手段覆盖不全、响应滞后,故障发现与定位效率偏低。为保障业务稳定运行、缩短排障时长,搭建统一集群运维监控平台势在必行。
基于 OpenFalcon 搭建一体化集群监控体系,覆盖硬件、Kafka、ES、接口服务等多维度监测,二次开发拓展日志监控能力。结合 Supervisord 实现服务自愈,搭配精细化权限与智能告警机制,实现全链路状态实时感知与极速异常推送。
1.分布式部署openfalcon框架,利用supervisord实现系统的自监控与自恢复。
2.根据产品设计,实现权限管理,告警规则优化,API监控与日志监控配置相关的Python后端开发。
3.开发并维护,API监控、ES监控、kafia监控等监控组件,实现自监控。
4.对话用户,根据用户痛点优化日志监控配置,协调资源,推动告警模板和告警示例功能的开发与上线。
项目业绩:
持续监控近300台服务器,300个API服务,300+个日志监控,平均每周产生1w多个告警,为开发人员提供





评论