随着信息化和数字化进程不断推进,企业 IT 基础设施规模持续扩大,虚拟化和超融合技术被广泛应用。实际建设过程中,往往由于历史原因或业务差异,形成了多厂商、多平台并存的 IT 架构,例如华为云、SmartX、浪潮、H3C 等虚拟化或超融合平台同时运行。
当前 IT 基础设施管理模式已难以支撑集团业务发展的需要,主要体现在以下几个方面:
1. 管理割裂,运维复杂,各虚拟化平台相互独立,缺乏统一管理入口,运维人员需在多套系统之间频繁切换,排障路径长、效率低。
2. 资源利用率低,缺乏全局资源视角,资源分配依赖经验判断,导致部分资源池负载过高,而部分资源长期闲置,僵尸虚拟机难以及时发现和回收。
3. 监控体系分散,监控工具零散、指标不统一,缺乏统一告警和历史分析能力,难以实现对异常的提前预警和趋势判断。
4. 故障定位困难,云主机分布在不同平台和资源池中,发生问题时无法快速定位其物理宿主和资源归属,延误故障处理。
5. 资源流程不规范,资源申请、审批、交付和回收主要依赖线下流程,缺乏透明度和可追溯性,无法形成资源全生命周期管理。
6. 用户可视性不足,虚拟机使用方无法直观了解自身资源的健康状态和历史性能数据,影响业务系统的运维和优化。
轻量化云管平台以“统一纳管、集中运维、可视监控、流程规范”为核心目标,主要功能包括:
1. 资源池管理
统一整合计算、存储、网络等异构资源;
打破资源孤岛,形成集团级统一资源视图;
通过可视化仪表盘展示资源总量、已用量和剩余量;
支持资源分类管理和生命周期管控。
2. 宿主机管理
实现宿主机的集中纳管和状态监控;
自动识别在线、离线状态;
节点异常自动触发告警,保障底层计算资源稳定运行。
3. 云主机管理
覆盖云主机全生命周期管理;
实时展示运行状态和关键性能指标;
记录云主机关键变更日志,如开关机、扩缩容、迁移等;
支持问题快速定位和历史追溯。
4. 资源使用统计与分析
对计算、存储等资源使用情况进行多维度统计;
支持按资源池、业务系统等维度分析;
统计结果可导出为 Excel,便于分析和汇报;
为资源优化和成本控制提供数据支撑。
5. 关键指标监控与告警
覆盖宿主机和云主机的关键运行指标;
支持 CPU、内存、磁盘、IO、网络等多项指标;
指标超阈值自动告警,支持历史数据回溯;
提升问题响应速度和系统稳定性。
6. 工单与流程管理
对资源申请、审批、分配进行流程化管理;
规范资源使用行为;
支撑资源全生命周期管理。
7. 权限与角色管理
支持功能权限和数据权限双重控制;
适配多角色协同场景;
满足资源管理员、运维人员等不同角色的权限需求;
保障系统安全和数据隔离。
1. 总体架构设计
平台采用分层架构设计,整体划分为五个层级:
1.1 平台层
对接各厂商虚拟化或超融合平台,统一调用其开放 API。
1.2 API 接口层(核心层)
负责采集各平台数据;
对不同厂商数据进行字段对齐、单位统一;
完成数据清洗、整形和模型构建。
1.3数据存储层
关系型数据库用于存储资源和业务数据;
时序数据库用于存储海量性能指标数据;
支撑监控和历史分析需求。
1.4业务逻辑层
提供统一后端服务接口;
按业务逻辑处理数据并向前端输出 JSON。
1.5前端展示层
提供统一 Web UI;
实现资源可视化、监控展示和操作入口。
2. 技术与实现特点
轻量化设计:功能聚焦核心需求,避免复杂冗余;
微服务架构:模块解耦,易扩展、易维护;
统一数据模型:屏蔽底层平台差异;
低部署成本:资源占用低,部署灵活;
良好扩展性:支持后续接入更多厂商平台。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论