集团原有 180 余套单体系统,发布靠手工、日志分散在 14 种格式、监控只有主机级告警。业务高峰期(节假日前后)排障平均 2 h,直接影响调度和出栏计划。技术部决定先把最核心的 30% 应用迁到容器,并统一日志与监控,降低运维门槛。做的事容器化• 选用 RKE2 做底座,先在测试场站跑通 18 个微服务,验证后再扩展到饲料厂、屠宰排产等 4 个业务域。• 用 Helm 做模板,GitLab CI 做流水线,把原来需要 2 周的升级压缩到 1-2 天。• 边缘节点(养殖场)网络不稳,加了 DaemonSet 方式的离线缓存,断网 2 h 内业务不断。日志• 统一用 Filebeat → Kafka → ClickHouse 的链路,把 14 种日志格式收敛成 3 种(access、app、audit)。• 热数据 3 天、冷数据 90 天自动转储到 MinIO,磁盘成本降 40%。• 做了基于日志的环控告警:风机异常日志 1 分钟内触发企业微信,比原来人工巡检提前 15 min。监控• Prometheus + Grafana 做基础监控,先拉通 CPU、内存、JVM、MQ 指标。• 用 blackbox_exporter 补上 200 多个关键接口的可用性探针,告警误报率从 30% 降到 5%。• 结合日志里的 trace-id,把排障链路可视化,定位接口超时平均耗时从 45 min 降到 12 min。结果• 核心系统容器化比例 30% → 85%,发布效率提升约 8 倍。• 日志查询从 5 个入口集中到 1 个,90% 问题可在 10 min 内定位。• 2024 年春节高峰,系统无重大故障,运维值班人数由 4 人/班减到 2 人/班。声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论