在微服务架构日益复杂的今天,传统的基于规则或单一指标的告警系统难以在海量异构数据中快速定位故障根因(RCA)。本项目旨在解决复杂分布式系统中,运维人员排查故障时面临的“信息过载”与“经验依赖”问题。通过模拟人类 SRE 专家的决策逻辑,利用 LLM 的推理能力自动化处理指标、日志、链路等全维度数据,将平均修复时间(MTTR)从小时级降低至分钟级,实现运维知识的资产化与排查过程的标准化。
点击空白处退出提示
在微服务架构日益复杂的今天,传统的基于规则或单一指标的告警系统难以在海量异构数据中快速定位故障根因(RCA)。本项目旨在解决复杂分布式系统中,运维人员排查故障时面临的“信息过载”与“经验依赖”问题。通过模拟人类 SRE 专家的决策逻辑,利用 LLM 的推理能力自动化处理指标、日志、链路等全维度数据,将平均修复时间(MTTR)从小时级降低至分钟级,实现运维知识的资产化与排查过程的标准化。
本项目构建了一个基于多智能体协作的自动化根因分析系统,包含以下核心模块:
多智能体协作中枢:采用 LangGraph 构建有状态的工作流,集成运维专家(Master)、指标分析(Metric)、日志提取(Log)、链路追踪(Trace)、决策仲裁(Analyst)及报告生成(Reporter)六大专项智能体。
动态 ReAct 推理引擎:智能体具备自主规划与反思能力,通过“推理-行动-观察”循环,动态调整数据调取的范围与深度。
异构工具集成层:封装了针对 CPU、内存、网络丢包等 5 种典型故障的检测算法(如 Z-Score、异常模式提取),通过标准接口(模拟 MCP)对接 Prometheus、ELK 等监控平台。
智能决策与闭环分析:决策智能体根据证据链计算置信度,并在证据充分时自动生成包含问题简述、故障路径、根因结论及优化建议的标准化分析报告。
可视化交互终端:基于 Streamlit 构建 Web 界面,实时展示多轮对话逻辑、智能体思考过程及最终拓扑诊断图。
架构设计:采用 LangGraph 实现非线性的复杂工作流,利用其状态持久化特性,解决了长对话中信息丢失的问题,实现了智能体之间的多轮“博弈”与证据合并。
策略优化:引入 ReAct 模式 结合专家知识库(RCA Knowledge),通过 In-Context Learning 引导 LLM 优先分析拓扑依赖,避免了盲目扫描数据导致的 Token 浪费和响应延迟。
算法实现:在工具层集成了 Z-Score 异常检测算法与日志聚类分析,提升了模型对底层时序指标异常识别的准确率。
工程化实践:实现了环境解耦的模拟数据驱动模式,支持离线演示与在线 API 模式切换。
难点攻克:针对 LLM 在复杂逻辑推理中可能出现的“幻觉”问题,设计了**“值班长(Analyst)”决策仲裁机制**,通过逻辑校验与置信度阈值拦截(如 0.8 阈值),确保输出结论的确定性。




评论