




个人介绍
10+年资深云平台运维专家|运维架构师|DevOps/SRE体系构建者
【管理能力】
1. 团队管理:5年IT团队管理经验,成功搭建20+技术团队,涵盖桌面/系统/应用/数据/安全及服务台等职能
2. 客户管理:3年跨国客户技术支持经验,服务全球500强客户,客户满意度保持95%+
3. 交付管理:3年ToB项目全周期管理经验,累计交付超50个企业级云解决方案,项目验收通过率100%
【技术能力】
1. 云架构:熟悉OpenStack私有云架构,深度参与华为云/AWS/Aliyun/Tencent Cloud等公有云项目落地
2. 系统层:Linux RHCE认证,精通Linux内核优化,掌握K8s+Docker云原生体系,熟悉Mysql/PG数据库、Ceph分布式存储及SAN/NAS架构
3. 开发层:掌握Shell/Python自动化开发,熟悉Nginx/Redis/MQ/ES/Kafka/ZK等Java中间件调优,具备Ansible/Terraform自动化运维能力
4. 大数据:了解Hadoop生态,搭建及运维CDH集群
【体系化建设】
1. DevOps体系:主导建设CI/CD全链路系统,实现日均50+次自动化部署,发布效率提升70%
2. SRE实践:构建分钟级故障响应机制,设计混沌工程测试方案,核心系统可用性达99.99%
3. 监控体系:搭建ELK+Prometheus立体监控系统,告警准确率提升至98%,MTTR缩短至5分钟
4. 流程体系:ITIL流程优化成效,ITSM服务流程设计,事件响应速度升提30%
5. 安全合规:信息安全体系建设,ISO27001体系实施,主导通过三级等保测评
工作经历
2021-01-29 -2024-11-08金蝶软件(中国)有限公司运维架构
1. 负责公有云产品容器平台的架构设计与优化,公用组件的监控及性能调优; 2. 负责产品公有云及私有云部署、测试及上线,至最终的客户验收与交付; 3. 协同研发对产品性能及故障问题进行深入分析,推进bug修复及架构改进,保障服务稳定性; 主要项目: ● 基于公有云容器平台,完成旗舰产品从0-1规划搭建,k8s节点600+,用户规模1000+; ● 基于脚本完成微服务标准产品更新自动化,提升了迭代效率60%; ● 基于脚本完成应用层面性能提前预警及故障自愈,缩短故障诊断及恢复时间,提升服务SLA; ● 运维项目交付负责人:华为HRIT私有云项目成功交付,主要交付项:服务高可用、全球部署、两地三中心容灾、故障演 练、混沌测试及业务监控等;
2020-04-20 -2020-11-01顺丰航空有限公司高级运维经理
作为信息技术中心运维组负责人,负责运维组全部工作,包括,服务台值班、系统及应用运维、数据库运维,保障快递服务的稳定性: 主要项目: ● 参与核心系统容灾系统改造和演练,提高业务系统可用性; ● 核心系统蓝绿发布方案推进和实施,实现灰度发布; ● 主导ITIL 运维体系和流程建设,聚焦事件管理、问题管理及变更管理,提升系统稳定性; ● 运维工作场景化标准化,梳理标准操作SOP,进而SOP自动化,提升系统可靠性
2019-04-15 -2020-04-20深圳市快金数据技术服务有限公司运维经理|运维架构
作为产研中心运维部负责人,负责运维部全栈工作,职责范围包括:系统运维、中间件运维、应用运维、数据库运维、安全运维、监控预警等。 主要项目: ● DevOps自动化建设; ● 根据双11、双12业务活动增量,协同研发评估系统技术层面瓶颈及扩容量; ● 基于exporter+prometheus+grafana 统一监控平台建设; ● 基于公有云容器平台,规划建设Docker及k8s平台及测试;
2015-10-08 -2019-03-10深圳前海云集品电子商务有限公司运维经理|运维架构
1. 负责公有云平台千万级在线用户的商城系统平台24*7运营保障(服务器1000台,PV:2-3亿/天,订单:200-300万/ 月); 2. 主导运维架构工作中重大故障,性能瓶颈等相关疑难杂症问题; 3. 跨部门流程制度规范制定及推行落地; 4. 运维团队建设管理,提升运维团队技能,保障运维团队的专业水平; 主要项目: ● 问题发现及改进,如:发布问题/系统问题/架构问题/资源问题/权限问题等; ● 1-20人团队组建及商城业务从托管IDC到阿里云的迁移; ● 基于阿里云,完成商城容器平台规划部署测试; ● 业务架构优化及改进(如系统优化、多级缓存、性能优化及问题定位、 业务扩容、页面加载优化及服务实时监控等); ● 带领团队完成运维技术层面提升,原始手工状态-->工具化-->自动化-->平台化;
2013-07-05 -2015-10-20IBM高级运维
1. 按照ITIL标准,为客户提供高质量服务,客户包括整个AP地区的Michelin,SG客户; 2. 管理客户存储系统TSM,NetApp,SAN,NAS,7*24小时故障响应,确保服务高可用; 3. 定期和客户沟通项目进度,收集客户问题,并制定相应的推进改进计划; 4. 负责客户虚拟化平台及服务器安装维护等;
教育经历
2005-09-01 - 2007-07-01中原工学院电力系统及其自动化本科
资质认证
语言
技能

1、10年以上Linux使用经验,Linux RHCE 认证,包括系统优化管理、补丁包管理、应用部署优化、安全配置及性能监控诊断 2、Nginx/Redis/MQ/ES/Kafka/ZK等Java中间件调优 3、Linux 系统层 CPU/内存/负载/网络 /进程线程 等异常、Nginx文件句柄耗尽、Redis慢查询/大key/故障恢复、ELK日志延时、Java FGC/OOM内存堆栈分析、线程阻塞分析、PG/Mysql 慢查询 等故障诊断分析


技术栈: Docker,Kubernetes(K8s),Docker Compose,Docker Hub 实施步骤: ● 应用容器化:将电商后台系统的前后端应用分别制作成Docker镜像,并推送到Docker Hub。 ● Kubernetes集群配置:在云平台上搭建Kubernetes集群,配置节点、网络和存储等资源。 ● 应用部署:使用Docker Compose在本地进行应用部署测试,确保无误后,将应用部署到Kubernetes集群中。 ● 监控与日志:集成Prometheus和Grafana进行监控,使用ELK Stack进行日志收集与分析。
