项目介绍:数智平台是中心的统一资产出口,覆盖22个业务单元,QPS在双十一峰值达到30W。然而,由于频繁的组织架构变动,该应用日常告警不断,亟需治理。
工作内容:作为618大促负责人,对服务网关SLA的不明确定义问题进行了明确,并明确了平台、服务提供方、客户、数据源责任方。对日常告警问题进行了精确分类,实现了责任人预警。解决了共享RPC线程池相互影响问题,全异步化改造应用,提高了服务吞吐量,并将编排服务隔离为单独物理分组。对于单机限流不够精确的问题,采用了集群 + 单机限流策略,并提供了单服务熔断能力。在针对频繁FullGC问题时,优化了JVM参数以有效降低GC次数。
项目成果:成功地实现了3000+服务责任人员管理,并在架构变动时转移自动转移给主管,同时告警到责任人。内存满告警从日均50余次降至零。618单链路、全链路压测顺利通过。
点击空白处退出提示
评论