容器化
• 选用 RKE2 做底座,先在测试场站跑通 18 个微服务,验证后再扩展到 4 个业务域。
• 用 Helm 做模板,GitLab CI 做流水线,把原来需要 2 周的升级压缩到 1-2 天。
• 边缘节点网络不稳,加了 DaemonSet 方式的离线缓存,断网 2 h 内业务不断。
日志
• 统一用 Filebeat → Kafka → ClickHouse 的链路,把 14 种日志格式收敛成 3 种(access、app、audit)。
• 热数据 3 天、冷数据 90 天自动转储到 MinIO,磁盘成本降 40%。
• 做了基于日志的环控告警:风机异常日志 1 分钟内触发企业微信,比原来人工巡检提前 15 min。
监控
• Prometheus + Grafana 做基础监控,先拉通 CPU、内存、JVM、MQ 指标。
• 用 blackbox_exporter 补上 200 多个关键接口的可用性探针,告警误报率从 30% 降到 5%。
• 结合日志里的 trace-id,把排障链路可视化,定位接口超时平均耗时从 45 min 降到 12 min。
结果
• 核心系统容器化比例 30% → 85%,发布效率提升约 8 倍。
• 日志查询从 5 个入口集中到 1 个,90% 问题可在 10 min 内定位。
• 2024 年春节高峰,系统无重大故障,运维值班人数由 4 人/班减到 2 人/班。
点击空白处退出提示
评论