随着服务越来越多,服务的稳定性治理(包括限流降级、链路追踪、统一日志服务、网关流量控制等)变得愈发重要。需要一套完整的平台化工具提升研发的规范性和业务的稳定性,切实发现解决系统中存在的各种问题,并沉淀一套服务稳定性治理的全套方案。
点击空白处退出提示
随着服务越来越多,服务的稳定性治理(包括限流降级、链路追踪、统一日志服务、网关流量控制等)变得愈发重要。需要一套完整的平台化工具提升研发的规范性和业务的稳定性,切实发现解决系统中存在的各种问题,并沉淀一套服务稳定性治理的全套方案。
链路追踪&&监控报警:Skywalking+Prometheus+Grafana+AlterManager+Sentinel
Skywalking 作为一款优秀的指标提取工具,能做到服务与服务之间、服务与中间件之间、中间件与中间件之间的 trace 追踪。
Prometheus 主要作为指标的存储,类似 TSDB 这种时序型数据库更有优势。
Grafana 作为 APM Dashboard ,图形展示更多样化,有更多的 DB 可选,而且还能提供对于各种限流组件、报警工具的接入。
AlterManager 作为报警工具,结合公司整体组织架构提供实时多维度(邮箱、电话、短信、IM 工具通知)的报警。
Sentinel 作为主要的限流熔断降级中间件。指标数据可以在 Grafana 中完美展示。
日志平台:ELK+FileBeat
传统的 ELK 中的 logstash 是一个 JVM 进程,随着微服务实例从虚拟机到容器化的转型,资源的利用率要求变高,而 logstash 对于机器的资源消耗比较严重,在容器上不太适用,所以选择更加轻量级的 filebeat 作为日志文件提取工具。而 logstash 整合成统一服务进行日志的格式统一。
物流云平台:管理每日优鲜仓内员工的生命周期(入离调转等)以及仓内人员的自排班。
技术栈:Skywalking、PinPoint、Prometheus、Grafana、AlterManager、Sentinel、Kong (动态路由)、ELK、K8S、动态线程池等。
我负责整体的可观测平台的建设,包括需求沟通、技术方案设计、项目周期把控、交付保证以及后续维护工作。
具体的技术细节可参考"功能介绍"。




评论