fourzero
1月前来过
全职 · 1000/日  ·  21750/月
工作时间: 工作日20:00-24:00、周末12:00-00:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

技能树

运维工具:熟悉 Linux 系统和自动化ansible运维工具的使用,能熟练使用各种工具定位问题。

容器:熟悉containerd、docker、kubernetes,对其底层原理(如网络、调度等)有深入理解。

云原生监控:熟悉Prometheus+Nightingale+Grafana及其周边生态,能灵活运用各类系统监控工具。

云原生网络:熟悉各种flannel、calico、cilium等cni插件原理,了解云原生高性能网络架构方案。

云原生生态:熟悉apisix、traefik网关的使用;了解dragonfly镜像加速;能够使用rancher对k8s集群进行管理

CICD:熟悉gitlab+argocd+harbor的持续交付与集成,具有一定的使用经验。

数据库:了解Mysql、redis基本原理,有一定的使用经验。

开发:熟悉go语言开发,了解kubebuilder使用;熟悉c++。

其他:熟悉git、vim、Makefile等工具的使用,提升工作效率。

工作经历

  • 2023-07-01 -2025-06-20北京地平线技术有限公司系统运维工程师

    自动化运维建设:利用 Ansible 实施自动运维流程,成功自动化 GPU 驱动升级、集群机器初始化和机器下线等关键操作,显著提升资源交付效率。 集群稳定性管理:负责维护超过 6 个 Kubernetes 集群和 2000 台服务器, 监控治理:长期管理 Prometheus、Nightingale 和 Victoria Metrics 等主要监控组件。从零开始构建标准化监控体系,包括告警机制设计、标准化告警流程制定以及监控自愈,提高了故障响应效率。 CNI 网络建设:研究 Kubernetes 多种 CNI 实现原理,并成功领导集群整合 RDMA 网络的完整建设过程,从设计到部署,实现了网络性能的显著提升。 存储集群维护:负责维护规模超过 100PB 的 JuiceFS 存储集群,确保数据存储的高可用性和稳定性。

教育经历

  • 2019-09-01 - 2023-07-01深圳大学计算机科学与技术本科

技能

K8S
Falcon prometheus
0
1
2
3
4
5
0
1
2
3
4
5
作品
云平台监控告警

技术架构: 1、prometheus(采集数据)+grafana(监控展示)+vm(持久化数据存储)+夜莺(告警发出)。 2、k8s中,多数采用prometheus进行数据直采,非集群中的数据,采用prometheus agent或者夜莺 agent进行数据采集。夜莺告警主要关联飞书,才发出的告警消息进行定制化,最终发到飞书群或者个人,并且告警会根据次数进行紧急程度升级。

0
2023-09-28 00:40
更新于: 1天前 浏览: 5