aiops_系统开发案例-程序员客栈

技术信息

作品详情

行业场景

本项目立项旨在解决 Kubernetes 云原生环境中故障定位慢、证据分散、排障依赖专家经验、修复建议不稳定等产品问题。随着企业业务逐步容器化、微服务化，集群中的 Pod、Node、Service、网络、存储、镜像仓库和应用日志高度耦合，传统监控只
能告警，无法自动完成从现象识别、证据采集、根因判断到修复建议的闭环。本项目面向智能运维 AIOps 场景，结合大模型、Runbook、Prometheus 指标、Kubernetes 事件、日志和链路数据，构建面向生产集群的智能诊断与辅助修复能力，提升运维
效率和故障处理标准化水平。

功能介绍

项目主要包含智能诊断、轻量查询、证据采集、根因分析、Runbook 知识库、结构化修复计划、人工审批修复、自动修复执行、流式输出和诊断追踪等功能模块。用户可以通过自然语言提问，例如“我的集群有什么问题”或“某个 Pod 为什么一直
Terminating”，系统会自动识别问题类型，调用 Kubernetes、Prometheus、日志和链路工具采集真实证据，生成结构化诊断报告。项目同时支持 /ask 深度诊断和 /query 快速查询两条链路，可输出性能统计、工具调用轨迹、核心证据、根因结论和安
全修复方案，实现从告警分析到修复决策的智能化闭环。

项目实现

项目采用 FastAPI 作为服务入口，内部基于 LangGraph 构建分阶段工作流，核心链路包括问题定位、证据采集、根因分析和总结输出。系统通过 MCP 协议统一接入 Kubernetes、Prometheus、Elasticsearch、DeepFlow 等外部工具，并结合 Runbook
知识库约束大模型诊断方向。为解决大模型长上下文漂移问题，项目设计了 layer_handoff 结构化上下文交接机制，将原始工具输出归档到 context archive，只把精简后的实体、异常类型、证据摘要和验证约束传递给下游节点。修复部分通过结构化
remediation plan、命令安全校验、review/auto 模式和执行后验证机制，保障智能修复过程可控、可审计、可扩展。