本项目立项旨在解决 Kubernetes 云原生环境中故障定位慢、证据分散、排障依赖专家经验、修复建议不稳定等产品问题。随着企业业务逐步容器化、微服务化,集群中的 Pod、Node、Service、网络、存储、镜像仓库和应用日志高度耦合,传统监控只
能告警,无法自动完成从现象识别、证据采集、根因判断到修复建议的闭环。本项目面向智能运维 AIOps 场景,结合大模型、Runbook、Prometheus 指标、Kubernetes 事件、日志和链路数据,构建面向生产集群的智能诊断与辅助修复能力,提升运维
效率和故障处理标准化水平。
项目主要包含智能诊断、轻量查询、证据采集、根因分析、Runbook 知识库、结构化修复计划、人工审批修复、自动修复执行、流式输出和诊断追踪等功能模块。用户可以通过自然语言提问,例如“我的集群有什么问题”或“某个 Pod 为什么一直
Terminating”,系统会自动识别问题类型,调用 Kubernetes、Prometheus、日志和链路工具采集真实证据,生成结构化诊断报告。项目同时支持 /ask 深度诊断和 /query 快速查询两条链路,可输出性能统计、工具调用轨迹、核心证据、根因结论和安
全修复方案,实现从告警分析到修复决策的智能化闭环。
项目采用 FastAPI 作为服务入口,内部基于 LangGraph 构建分阶段工作流,核心链路包括问题定位、证据采集、根因分析和总结输出。系统通过 MCP 协议统一接入 Kubernetes、Prometheus、Elasticsearch、DeepFlow 等外部工具,并结合 Runbook
知识库约束大模型诊断方向。为解决大模型长上下文漂移问题,项目设计了 layer_handoff 结构化上下文交接机制,将原始工具输出归档到 context archive,只把精简后的实体、异常类型、证据摘要和验证约束传递给下游节点。修复部分通过结构化
remediation plan、命令安全校验、review/auto 模式和执行后验证机制,保障智能修复过程可控、可审计、可扩展。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论