钟泽霖
1天前在线
全职 · 300/日  ·  6525/月
工作时间: 工作日22:00-03:00、周末00:00-24:00工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

我目前在上海数璟信息科技担任运维工程师 + AIOps Agent 开发,工作内容横跨"客户交付"和"内部运维"两条线。

客户侧主要负责金融客户的 Zabbix 和 ELK 监控平台建设与运维,同时参与公司AI Agent 告警根因分析系统的开发,以及 Xinference 大模型推理平台的交付。

内部侧负责公司全部 IT 基础设施,包括 gitlab的CI/CD 流水线、物理服务器硬件、以及 EVO 虚拟化平台的运维保障。

简单说,就是一边给金融客户做智能监控和 AIOps 落地,一边把公司内部的研发和生产环境稳稳托起来。

工作经历

  • 2025-05-06 -至今上海数璟信息科技有限公司运维工程师

    一、客户侧监控平台建设与运维 负责金融客户监控体系的部署、配置与定制化开发,包括: Zabbix 监控:完成主机、网络、数据库、中间件、业务链路等多维度指标采集与告警策略配置;针对金融客户场景做模板定制与性能调优。 ELK 日志监控:搭建并维护 Elasticsearch + Logstash + Kibana 日志平台,承担多源日志的接入、清洗、索引设计与可视化看板搭建,支撑故障排查与合规审计需求。 二、AI Agent 智能运维研发与落地 参与公司 AIOps 产品线核心模块的开发与交付,方向为告警根因分析: 基于大模型构建多智能体协同的告警根因定位系统,对接 Zabbix / ELK 等监控源数据。 负责告警数据预处理、向量化(Embedding)、相似告警检索、知识库构建与 Prompt 工程。 推进 AI Agent 与现有监控告警平台的集成对接,将传统人工排查压缩至分钟级故障定位。 三、Xinference 模型推理平台交付 负责客户侧 Xinference(大模型推理框架)的环境部署、模型管理与运行维护,包括 GPU 资源调度、模型加载/卸载、推理接口对接与性能

教育经历

  • 2018-09-01 - 2022-06-30上海商学院计算机科学与技术本科

资质认证

语言

中文母语水平
英语无工具书面交流
0
1
2
3
4
5
0
1
2
3
4
5

技能

Linux精通
Zabbix精通
0
1
2
3
4
5
0
1
2
3
4
5
作品
AI 编程助手用量监控与账号运维平台(Codex Token Monitor)

1、自动扫描多用户的Codex会话日志和认证文件。2、按用户、共享账号、模型三个维度统计Token用量。3、展示当前周期消耗、输入/输出Token、缓存命中、RPM、TPM、响应时长等指标。4、支持自定义时间窗口、用户详情页、趋势图和模型分布分析。5、支持账号余量查看、账号导入、账号切换和自动切换策

0
2026-05-17 23:24
更新于: 1天前 浏览: 1