·AI Agent / LLM 应用编排系统(Agentic workflows / 多工具调用 / 多代理协作)
·AI 工作流运行质量与可靠性治理:成功率、错误面、延迟、工具调用失败、路由失败、记忆/上下文问题、漂移风险
·企业级 AI 运营与风控场景:把“AI 编排过程”变成可追踪、可量化、可评分、可预测的指标体系
·也可迁移到:RPA+LLM 自动化、客服/理赔/审批等多步骤工作流的质量监控与告警体系
点击空白处退出提示
语言技术
Python、postgres、Docker、Redis、SQL Server系统类型
Web行业分类
人工智能参考价格
2000演示地址
https://github.com/Hideonshadowl/ai_agent_ops
·AI Agent / LLM 应用编排系统(Agentic workflows / 多工具调用 / 多代理协作)
·AI 工作流运行质量与可靠性治理:成功率、错误面、延迟、工具调用失败、路由失败、记忆/上下文问题、漂移风险
·企业级 AI 运营与风控场景:把“AI 编排过程”变成可追踪、可量化、可评分、可预测的指标体系
·也可迁移到:RPA+LLM 自动化、客服/理赔/审批等多步骤工作流的质量监控与告警体系
A. 信号采集与归一化(核心数据入口)
提供 raw telemetry ingest 接口:支持单条与批量事件写入
将不同来源的事件映射为统一的 normalized signal schema(包含 org/workflow/agent/event_type/timestamp、latency、tool_status、error_type、route_name、model_name 等)
规范化后的数据落库到 signals_normalized,并建立面向 org/workflow/time 的索引便于统计分析
B. Orchestration Score(OS)评分体系(运行健康度量化)
对编排运行质量进行聚合与评分(包含 Oₛ、OLMₛ、Uₛ 等指标结构)
提供计算、获取最新分数、导出等能力(支持 window 维度、缓存加速)
C. Failure Score(FS)失败评分引擎(解释“为什么坏、坏在哪”)
提供 GET /failure/score:按 org/workflow/window 计算 fs_total
输出 5 个 driver 的 breakdown(用于定位根因):
memory / routing / latency / tool / drift
支持批量计算与持久化(failure_scores 表 + 相关索引)
D. CCL(Continuity Canonical Ledger)连续性账本:追踪上下文链路与漂移
支持写入连续性事件:parent-child lineage、drift_flags、memory_used_pct、TTL(time-to-live)
自动计算 D3 状态(degrade/decay/dissolve)并落库,用于描述上下文衰减与风险阶段
提供 summary 聚合能力(面向单 agent 的健康指标、漂
技术栈:Python、FastAPI、SQLAlchemy、PostgreSQL(UUID/JSONB/索引)、Alembic 迁移;可选 Redis 缓存;Prometheus /metrics;Python SDK(sync/async + 重试);连续性场景支持 JWT/HMAC 签名上报。
整体架构:Telemetry 采集 → 事件归一化(统一 schema)→ 聚合统计 → 评分输出(OS/FS)→ 连续性治理(CCL)→ 漂移预测(Forecast)。
核心实现:
signals_normalized 作为统一事件中心表(org/workflow/agent/event_type/latency/error 等结构化,扩展字段进 JSONB)。
OS/US:按窗口聚合计算编排健康度分数。
FS:输出总分 + 5 维驱动拆解(memory/routing/latency/tool/drift)用于定位根因。
CCL:lineage(父子链)+ TTL + D3 状态(degrade/decay/dissolve)量化连续性与衰减。
Forecast:基于历史 drift 做 7/14 天预测(含缓存与数据不足处理)。
亮点:统一可扩展的信号模型、评分可解释(driver breakdown)、连续性账本治理能力(CCL+D3)、工程化完备(迁移/索引/测试/部署可落地)。
难点:上游事件异构、窗口聚合性能、漂移/连续性工程化;通过归一化映射、索引设计、可解释输出与可预测模块实现闭环。




评论