Prometheus集群搭建

我要开发同款
木有文花2023年05月24日
275阅读

作品详情

项目背景:公司现有的 Prometheus 集群,查询数据时经常超时,告警不及时。为此需要重新搞一套新的 Prometheus 集群解决以上问题。项目介绍:经分析,以上问题的根源有两点:一是老的 Prometheus 并没有对数据量和 Prometheus 实例的处理能力做评估,超出了 Prometheus 实例的处理上线;二是老的 Prometheus 监控配置不合理,每次请求会有很多冗余数据。为此需要新的方案解决以上痛点。期间我调研了多套方案,尽量满足数据持久性、服务高可用、水平可扩展、数据一致性等多个维度要求。结合公司实际情况(公司对集群中非业务组件的资源使用情况比较敏感),最终采用了 Prometheus 集中式部署的方案:即单独部署一套 thanos + Prometheus多副本集群。另外开发一个 rebalancer 组件,监听配置中心下发的 Prometheus 配置,如果一旦有变化则重新均衡 Prometheus 实例之间的配置。我的职责:我负责压测评估单个 Prometheus 实例的承载上限,并以此根据公司集群规模反推出 Prometheus 集群所需的机器数。另一方面优化 Prometheus 配置,比如过滤掉不必要的标签,增加预聚合规则提高查询相应速度。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论