AI 编排系统信号采集与评分平台_系统开发案例-程序员客栈

技术信息

语言技术
Python、postgres、Docker、Redis、SQL Server系统类型
Web行业分类
人工智能参考价格
2000演示地址
https://github.com/Hideonshadowl/ai_agent_ops

作品详情

行业场景

·AI Agent / LLM 应用编排系统（Agentic workflows / 多工具调用 / 多代理协作）
·AI 工作流运行质量与可靠性治理：成功率、错误面、延迟、工具调用失败、路由失败、记忆/上下文问题、漂移风险
·企业级 AI 运营与风控场景：把“AI 编排过程”变成可追踪、可量化、可评分、可预测的指标体系
·也可迁移到：RPA+LLM 自动化、客服/理赔/审批等多步骤工作流的质量监控与告警体系

功能介绍

A. 信号采集与归一化（核心数据入口）
提供 raw telemetry ingest 接口：支持单条与批量事件写入
将不同来源的事件映射为统一的 normalized signal schema（包含 org/workflow/agent/event_type/timestamp、latency、tool_status、error_type、route_name、model_name 等）
规范化后的数据落库到 signals_normalized，并建立面向 org/workflow/time 的索引便于统计分析
B. Orchestration Score（OS）评分体系（运行健康度量化）
对编排运行质量进行聚合与评分（包含 Oₛ、OLMₛ、Uₛ 等指标结构）
提供计算、获取最新分数、导出等能力（支持 window 维度、缓存加速）
C. Failure Score（FS）失败评分引擎（解释“为什么坏、坏在哪”）
提供 GET /failure/score：按 org/workflow/window 计算 fs_total
输出 5 个 driver 的 breakdown（用于定位根因）：
memory / routing / latency / tool / drift
支持批量计算与持久化（failure_scores 表 + 相关索引）
D. CCL（Continuity Canonical Ledger）连续性账本：追踪上下文链路与漂移
支持写入连续性事件：parent-child lineage、drift_flags、memory_used_pct、TTL（time-to-live）
自动计算 D3 状态（degrade/decay/dissolve）并落库，用于描述上下文衰减与风险阶段
提供 summary 聚合能力（面向单 agent 的健康指标、漂

项目实现

技术栈：Python、FastAPI、SQLAlchemy、PostgreSQL（UUID/JSONB/索引）、Alembic 迁移；可选 Redis 缓存；Prometheus /metrics；Python SDK（sync/async + 重试）；连续性场景支持 JWT/HMAC 签名上报。

整体架构：Telemetry 采集 → 事件归一化（统一 schema）→ 聚合统计 → 评分输出（OS/FS）→ 连续性治理（CCL）→ 漂移预测（Forecast）。

核心实现：
signals_normalized 作为统一事件中心表（org/workflow/agent/event_type/latency/error 等结构化，扩展字段进 JSONB）。
OS/US：按窗口聚合计算编排健康度分数。
FS：输出总分 + 5 维驱动拆解（memory/routing/latency/tool/drift）用于定位根因。
CCL：lineage（父子链）+ TTL + D3 状态（degrade/decay/dissolve）量化连续性与衰减。
Forecast：基于历史 drift 做 7/14 天预测（含缓存与数据不足处理）。
亮点：统一可扩展的信号模型、评分可解释（driver breakdown）、连续性账本治理能力（CCL+D3）、工程化完备（迁移/索引/测试/部署可落地）。

难点：上游事件异构、窗口聚合性能、漂移/连续性工程化；通过归一化映射、索引设计、可解释输出与可预测模块实现闭环。