电商业务峰值波动大,大促期间 K8s 容器集群、MySQL、Nginx 资源瞬时暴涨;云计算代维托管数十家中小客户 Linux/Windows 主机,多套监控工具割裂,运维人员日常巡检重复工作量大,告警泛滥无效消息多,亟需一体化运维管控平台。
点击空白处退出提示
电商业务峰值波动大,大促期间 K8s 容器集群、MySQL、Nginx 资源瞬时暴涨;云计算代维托管数十家中小客户 Linux/Windows 主机,多套监控工具割裂,运维人员日常巡检重复工作量大,告警泛滥无效消息多,亟需一体化运维管控平台。
功能模块:资源资产管理模块、多源监控采集模块、统一告警中心、AI 智能故障分析模块、自动化运维执行模块、报表可视化模块。
功能描述:平台对接 Zabbix、Prometheus 两类监控数据源,统一纳管 Linux 物理机、Windows 服务器与 K8s 容器资源;告警收敛去重后经由 AI 解析故障根因,联动 Hermes+N8N 实现故障自动巡检、脚本自愈,自动生成周 / 月度资源报表,适配电商大促资源扩容监控与云计算代维批量运维场景。
本人负责 Linux 环境部署、Zabbix 模板优化、Prometheus 采集规则编写、K8s 容器监控接入,对接 DeepSeek AI 接口实现告警智能分析,完成 N8N 工作流联动与钉钉 / 企微告警分发落地,项目全流程测试上线。
2、技术栈 & 架构、亮点难点
技术栈:Linux+K8s+Zabbix+Prometheus+N8N+MySQL;采用微服务分层架构,多监控适配器统一对接异构数据源。亮点:多监控数据汇聚、AI 故障研判 + 自动化自愈;难点:K8s 动态 Pod 自动发现采集、海量告警降噪收敛、跨系统数据格式统一适配。



评论