



个人介绍
技能树
运维工具:熟悉 Linux 系统和自动化ansible运维工具的使用,能熟练使用各种工具定位问题。
容器:熟悉containerd、docker、kubernetes,对其底层原理(如网络、调度等)有深入理解。
云原生监控:熟悉Prometheus+Nightingale+Grafana及其周边生态,能灵活运用各类系统监控工具。
云原生网络:熟悉各种flannel、calico、cilium等cni插件原理,了解云原生高性能网络架构方案。
云原生生态:熟悉apisix、traefik网关的使用;了解dragonfly镜像加速;能够使用rancher对k8s集群进行管理
CICD:熟悉gitlab+argocd+harbor的持续交付与集成,具有一定的使用经验。
数据库:了解Mysql、redis基本原理,有一定的使用经验。
开发:熟悉go语言开发,了解kubebuilder使用;熟悉c++。
其他:熟悉git、vim、Makefile等工具的使用,提升工作效率。
工作经历
2023-07-01 -2025-06-20北京地平线技术有限公司系统运维工程师
自动化运维建设:利用 Ansible 实施自动运维流程,成功自动化 GPU 驱动升级、集群机器初始化和机器下线等关键操作,显著提升资源交付效率。 集群稳定性管理:负责维护超过 6 个 Kubernetes 集群和 2000 台服务器, 监控治理:长期管理 Prometheus、Nightingale 和 Victoria Metrics 等主要监控组件。从零开始构建标准化监控体系,包括告警机制设计、标准化告警流程制定以及监控自愈,提高了故障响应效率。 CNI 网络建设:研究 Kubernetes 多种 CNI 实现原理,并成功领导集群整合 RDMA 网络的完整建设过程,从设计到部署,实现了网络性能的显著提升。 存储集群维护:负责维护规模超过 100PB 的 JuiceFS 存储集群,确保数据存储的高可用性和稳定性。
教育经历
2019-09-01 - 2023-07-01深圳大学计算机科学与技术本科