因为公司使用调度服务的除了线上正式运营流程,还有很多算法,业务研究人员,基因相关任务一般都是需要资源多,运行时间长,所以成本把控也一直是部门核心。我们基于 K8S 的prometheus 和 grafana,结合 aws 的账单系统,搭建了一套自己的资源监控服务,可以监控到任务级别,精确到人
评论