

全职 · 2000/日 · 43500/月信用一般
工作时间: 工作地点:
远程
服务企业:
0家累计提交:
0工时
联系方式:
********
********
********


聊一聊
个人介绍
核心优势 :k8s/prometheus/cicd/golang运维开发专家从0到1开发机器学习平台前后端代码完整掌握AI训练的全生命周期中的各个环节,有400台GPU节点集群的维护调优经验精通k8s源码:解决各种k8s底层疑难杂症、k8s大集群调优、containerd底层问题等从2个角度系统的研究过k8s源码,总结 (按组件、从一个具体问题入手)独立开发30+k8s周边项目:多集群自动守卫、operator、定制调度器、webhook、各种ds等k8s在线离线没有短板,离线训练:aiOnK8s、aiInfra、volcano等在线集群:稳定性保障、流量控制、集群网关apisix、多泳道等k8s资源利用率:超卖、应用资源画像、在离混部-潮汐调度等监控架构:我可以将监控系统带到一个新的高度,熟读prometheus和周边项目源码,已多次给人培训并贡献多个开源项目监控底层:开发20+的exporter,维护各种tsdb、thanos、重查询提速、动态分片的HA等cicd:独立设计完整的多环境多泳道发布流程、熟悉各种pipeLine工具源码tekton、argocd、kruise-rollout等golang: 丰富的运维平台和工具开发经验, (工单、cmdb和服务树、grpc-cs任务执行、监控、k8s、cicd、巡检、日志监控、分布式网络探测)
工作经历
2025-08-04 -2025-08-07文档挖我
北京鉴智科技有限公司 | 2024.9-至今 | 运维负责人 1. 从0到1开发机器学习平台 纳管多个云上的gpu和cpu-k8s集群 任务功能 多集群多队列多用户组 gpu多机训练,tensorboard可视化 工作流cpu/gpu数据处理 云仿真,单机仿真任务 开发机 gpu-share开发机1虚n gpu双卡开发机 cpu开发机 save镜像 原地重启 cfs/pfs持久化存储 alluxio缓存 4种维度监控、本地和云平台日志 支持优先级
教育经历
2025-08-03 - 2025-08-05中南大学纷纷本科
语言
普通话
英语
0
1
2
3
4
5
技能
K8S
0
1
2
3
4
5