个人介绍
我目前在上海数璟信息科技担任运维工程师 + AIOps Agent 开发,工作内容横跨"客户交付"和"内部运维"两条线。
客户侧主要负责金融客户的 Zabbix 和 ELK 监控平台建设与运维,同时参与公司AI Agent 告警根因分析系统的开发,以及 Xinference 大模型推理平台的交付。
内部侧负责公司全部 IT 基础设施,包括 gitlab的CI/CD 流水线、物理服务器硬件、以及 EVO 虚拟化平台的运维保障。
简单说,就是一边给金融客户做智能监控和 AIOps 落地,一边把公司内部的研发和生产环境稳稳托起来。
工作经历
2025-05-06 -至今上海数璟信息科技有限公司运维工程师
一、客户侧监控平台建设与运维 负责金融客户监控体系的部署、配置与定制化开发,包括: Zabbix 监控:完成主机、网络、数据库、中间件、业务链路等多维度指标采集与告警策略配置;针对金融客户场景做模板定制与性能调优。 ELK 日志监控:搭建并维护 Elasticsearch + Logstash + Kibana 日志平台,承担多源日志的接入、清洗、索引设计与可视化看板搭建,支撑故障排查与合规审计需求。 二、AI Agent 智能运维研发与落地 参与公司 AIOps 产品线核心模块的开发与交付,方向为告警根因分析: 基于大模型构建多智能体协同的告警根因定位系统,对接 Zabbix / ELK 等监控源数据。 负责告警数据预处理、向量化(Embedding)、相似告警检索、知识库构建与 Prompt 工程。 推进 AI Agent 与现有监控告警平台的集成对接,将传统人工排查压缩至分钟级故障定位。 三、Xinference 模型推理平台交付 负责客户侧 Xinference(大模型推理框架)的环境部署、模型管理与运行维护,包括 GPU 资源调度、模型加载/卸载、推理接口对接与性能
教育经历
2018-09-01 - 2022-06-30上海商学院计算机科学与技术本科







