项目名称:Incident AI 事故分析引擎
一句话介绍:
一个帮助微服务团队快速完成故障根因分析和事故复盘的 AI 工具,已上架阿里云计算巢,支持一键私有化部署。
项目背景:
在 Spring Cloud 微服务环境中,故障发生后手动翻阅 Loki 日志、定位根因、撰写事故报告往往需要 1-2 小时,严重影响运维效率和团队响应速度。我开发了 Incident AI,旨在通过 AI 自动化这一过程,帮助 SRE 和开发团队大幅缩短复盘时间。
核心功能:
- 支持从 Loki(兼容 Prometheus)自动拉取异常日志
- 使用 Qwen(通义千问)、DeepSeek 等大模型进行智能根因分析
- 1-2 分钟生成结构化事故报告,包含执行摘要、已确认根因、疑似问题、处理建议、时间线、异常趋势和 AI 置信度
- 支持企业微信一键推送(同时兼容钉钉、飞书、邮箱、短信)
- 完全私有化部署,数据不出用户环境
部署方式:
- 推荐方式:阿里云计算巢一键部署(几分钟完成)
部署链接:https://computenest.console.aliyun.com/service/instance/create/cn-hangzhou?type=user&ServiceId=service-a98eb17b44db48c3a7b4&userCode=3dzho3aj
- 本地部署:提供完整 Docker Compose + Tar 包,支持离线环境
技术栈:
后端:Spring Boot / Java
日志源:Loki、Prometheus
AI 模型:Qwen、DeepSeek、Grok、Ollama(支持本地模型)
通知渠道:企业微信、钉钉、飞书等多渠道
部署:Docker Compose、阿里云计算巢
项目价值:
已帮助团队将事故复盘时间从 1-2 小时缩短至
点击空白处退出提示












评论