本项目面向大规模 Linux 服务器运维与基础设施可观测性场景,用于在数据中心、云主机或业务集群中持续采集操作系统、硬件健康、内核异常和安全状态数据,支撑故障发现、风险治理和稳定性运营。
点击空白处退出提示
本项目面向大规模 Linux 服务器运维与基础设施可观测性场景,用于在数据中心、云主机或业务集群中持续采集操作系统、硬件健康、内核异常和安全状态数据,支撑故障发现、风险治理和稳定性运营。
OS Agent 作为部署在主机侧的轻量级采集服务,负责采集系统版本、内核版本、主机平台、容器系统信息、CPU 状态、NUMA 状态、SSD 寿命、RAS 硬件错误、I/O 延迟、网卡异常、SCSI/MCE 指标、CVE 信息、补丁状态、内核崩溃、应用
崩溃以及 scx batch abort/timeout 等数据。项目通过 /metrics 暴露 Prometheus 指标,通过 /metrics_json 提供结构化 JSON 数据,并支持崩溃日志上传、短链生成、Jira/MA 信息关联和 Seatalk 告警通知,便于监控平台和运维平
台统一拉取、分析和告警。
项目使用 Go 实现,基于 Gin 提供 HTTP 服务,结合 Prometheus client 输出监控指标,使用 GORM 与 SQLite 保存本地事件和崩溃记录,并集成 ksnoop-lib 采集底层 OS 与硬件指标。服务以 systemd 方式运行,支持 deb 包构建和
配置化采集周期控制。




评论