个人介绍
工作经历
2025-03-13 -至今优刻得股份有限公司sre
备份与容灾测试: 使用 Velero 工具对 Kubernetes 集群进行全面的备份与恢复测试,覆盖 5 个以上关键业务命名空间,涵盖无状态服务(如 Nginx)与有状态服务(如 MySQL);通过恢复验证确保 PV、PVC 数据一致性,构建可靠的灾备体系,提升系统恢复能力。 数据库与日志处理: 独立完成超过内部 MySQL 数据库的迁移操作,设计并执行数据校验流程,确保零数据丢失;编写 Shell 脚本集成 s3cmd 工具,实现对每日新增的 uhub 日志自动上传至对象存储,日志上传成功率达 99.9%,极大提高了日志归档的自动化水平。 自动化部署与集群运维: 利用 Ansible 编排脚本完成 k0s 控制平面与 worker 节点的自动部署,支持多节点高可用架构;同步完成 KubeRay 环境部署配置;配合团队完成 Kun 内部集群从 10 节点扩容至 12 节点,保障平台稳定扩展。 日志采集平台搭建与优化: 主导 ELK 架构中 Filebeat 部分的搭建与调优,负责配置采集策略,支持 event 模块日志、容器标准输出等多类型日志接入;在多源并发写入场景下,通过缓
2024-10-16 -2025-02-28杭州比智科技有限公司运维工程师
大数据平台部署与升级:独立成功部署存算引擎产品并参与数据云相关产品升级,负责过三家客户侧环境部署,并且确保高效、稳定上线。 监控部署:部署和优化监控系统,保证产品和服务的高可用性。配置自动报警机制,通过钉钉等方式通知相关责任人,及时响应潜在问题。 运维巡检: 完成项目侧的定期运维巡检,包括系统性能监测、日志分析和潜在问题排查,提供巡检报告及优化建议,确保系统稳定运行。 运维工单响应: 参与处理OnCall值班期间的运维工单,主动识别、分析并解决告警问题,及时跟进和反馈。 自动化部署脚本开发: 参与开发和维护自动化部署脚本,提升部署效率。通过脚本化操作,成功缩短了产品上线和维护周期。 pipeline脚本开发: 参与开发并优化了Jenkins-pipeline脚本,实现CI/CD自动化流程,确保代码从开发到生产环境的高效、无缝迁移。
教育经历
2021-09-01 - 2025-06-30河北工程大学计算机科学与技术本科


