运维

1、10年以上Linux使用经验,Linux RHCE 认证,包括系统优化管理、补丁包管理、应用部署优化、安全配置及性能监控诊断 2、Nginx/Redis/MQ/ES/Kafka/ZK等Java中间件调优 3、Linux 系统层 CPU/内存/负载/网络 /进程线程 等异常、Nginx文件句柄耗尽、Redis慢查询/大key/故障恢复、ELK日志延时、Java FGC/OOM内存堆栈分析、线程阻塞分析、PG/Mysql 慢查询 等故障诊断分析
930运维
技术栈: Docker,Kubernetes(K8s),Docker Compose,Docker Hub 实施步骤: ● 应用容器化:将电商后台系统的前后端应用分别制作成Docker镜像,并推送到Docker Hub。 ● Kubernetes集群配置:在云平台上搭建Kubernetes集群,配置节点、网络和存储等资源。 ● 应用部署:使用Docker Compose在本地进行应用部署测试,确保无误后,将应用部署到Kubernetes集群中。 ● 监控与日志:集成Prometheus和Grafana进行监控,使用ELK Stack进行日志收集与分析。
1250运维
DevOps建设产品系统
1、建立从开发到运维之间快速、平滑、能向客户快速交付价值的工作流 2、建立安全可靠的系统,从右向左每个阶段快速持续获得工作反馈 3、提升发布频率、交付周期、服务水平,并降低变更失败率 工具链如下: Git/Gitlab,Ansible,Jenkins,JIRA,Confluence,Sona,Jumpserver,Docker,Kubernetes,Prometheus等
860运维
一、架构设计 ● 高性能硬件:经过比对选择华为云CCE容器引擎,底层高性能裸金属NUMA架构和高速IB网卡。 ● 高可靠:控制节点和数据节点均采用高可用架构,且位于不同可用区,增强可靠性和稳定性。 二、网络规划 ● 分别划分独立的节点网络、容器网络和服务网络,其中容器网络模型采用高性能的VPC网络 三、容器管理和编排 ● Deployment/Pod管理:通过YAML文件定义Pod的规格、镜像地址,使用ConfigMap保存环境变量,使用kubectl命令 来管理Pod的生命周期。 ● 服务编排:使用负载均衡(LoadBalancer)类型的服务,ELB过来的流量经过节点,通过Service转发到Pod。 四、持久化存储 ● 弹性文件存储(SFS):通过PVC绑定PV挂载到容器,存储海量小文件业务。 ● 对象存储(obs):通过PVC绑定PV挂载到容器,存储应用运行异常日志及堆栈数据。 五、接入层管理 ● 对比华为云ELB Ingress和Nginx Ingress,考虑并发性和安全最终选择ELB Ingress,根据不同路由转发到相应负载。 六、持续集成/部署 ● CI/CD管道:使用GitLab、Jenkins、Sonar及测试框架(如JUnit、Selenium等),实现滚动更新,减少对生产影响。 ● 灰度发布:使用ELB Ingress 根据灰度规则HTTP请求头、Cookie等实现灰度发布。 七、可观测性 ● 监控告警:使用云原生监控插件kube-prometheus-stack为Kubernetes集群提供全面的监控和可视化能力。 ● 日志:使用云原生日志采集插件(log-agent)采集容器日志、节点日志及k8s事件日志。
1110运维
SRE体系建设产品系统
一、 Pre-MTBF阶段(故障预防) ● 架构设计:采用高可用、可扩展的架构设计,确保系统在面对各种压力和挑战时能够保持稳定运行。这包括负载均衡、 冗余部署、故障转移等技术手段的应用。 ● 资源管理:合理规划系统资源,包括计算资源、存储资源、网络资源等,确保资源能够满足业务需求并避免资源瓶颈。 ● 混沌工程:通过模拟系统故障和异常场景,测试系统的恢复能力和容错性,从而发现潜在问题并进行修复。 ● 安全加固:定期进行安全审计和漏洞扫描,及时发现并修复安全漏洞,防止系统受到攻击。 二、MTTI阶段(故障发现) ● 监控告警:使用高效的监控系统,如Prometheus、Grafana等配合告警机制,实时监控系统的运行状态和性能指标。 ● 日志分析:利用日志分析工具,如ELK Stack、Splunk等,收集、分析和存储系统日志,以便快速定位问题。 三、MTTK阶段(故障定位) ● 日志分析:详细分析系统日志,查找异常信息和错误代码,从而确定故障的原因。 ● 性能监控:通过性能监控工具,分析系统的性能指标,如CPU使用率、内存占用率等,找出性能瓶颈和异常点。 ● 工具辅助:使用故障排查工具,如strace、gdb、MAT、APM、链路跟踪等,对系统进行深入分析和调试,确定故障的 具体位置。 四、MTTF阶段(故障恢复) ● 应急预案:制定详细的应急预案,包括故障处理流程、恢复步骤等,确保在故障发生时能够迅速响应并恢复系统。 ● 自动化恢复:利用自动化运维工具,如脚本,实现限流降级、异常熔断、容灾切换及服务重启等快速恢复服务。 五、Post-MTBF阶段(故障改进) ● 故障复盘:对每次故障进行复盘和总结,分析故障原因、处理过程和结果,提取经验教训。 ● 改进措施:根据故障复盘结果,提出改进措施并付诸实施,如优化架构设计、加强资源管理、完善监控系统等。 ● 持续改进:持续关注新技术的发展和应用,不断优化和完善稳定性保障规划,以适应不断变化的市场需求和业务挑战。
1640运维
1、机房上架:设备上下架,机房搬迁等。 2、设备维护:服务器,网络,负载,安全等设备 3、系统与中间件管理:linux,weblogic,nginx,haproxy,微服务类等 4、运维监控:cacti,nagios,zabbix,smartping,smokping等。 5、日志监控:系统、应用、网络等日志分析与处置 6、故障处理:软硬件故障,应用异常响应与处理 7、漏洞扫描:awvs,zap,bp,nessus等 8、安全加固:系统加固,网络架构设计等 9、等保年审:二级,三级过审 10、代码部署:jenkins推送,重启 11、其他等
1450Zabbix运维
开源运维平台开源项目
特性 批量执行: 主机命令在线批量执行 在线终端: 主机支持浏览器在线终端登录 文件管理: 主机文件在线上传下载 任务计划: 灵活的在线任务计划 发布部署: 支持自定义发布部署流程 配置中心: 支持KV、文本、json等格式的配置 监控中心: 支持站点、端口、进程、自定义等监控 报警中心: 支持短信、邮件、钉钉、微信等报警方式 优雅美观: 基于 Ant Design 的UI界面 开源免费: 前后端代码完全开源
1450Python运维
校园网络需要覆盖整个校园,包括行政区、教学区、运动区、住宿区等各个区域,确保两个校区所有用户都能方便地接入网络。 以促进数字化校园建设为目标运用信息化技术改造学校的管理流程,包括学生管理、教职员工管理、财务管理、设施管理等方面。例如,学生信息管理系统、教职员工考勤系统、财务管理软件等。提高学校整体效率和用户满意度。 确保用户数据的安全性和隐私保护。防范网络攻击、病毒、恶意软件等安全威胁。网络管理员需要管理和监控校园网络的运行状态、安全性和性能。 安装并定期更新防病毒软件,及时检测和清除网络中的病毒和恶意软件。使用恶意网站过滤技术,阻止用户访问已知的恶意网站,减少受到网络威胁的风险。 配置网络安全监控系统,实时监控网络流量和安全事件,及时发现和应对安全威胁。 建立网络安全事件响应机制,制定相应的应急预案,以迅速响应和处理网络安全事件,最大程度减少损失 使用了 mstp vrrp dhcp ipsec 防火墙配置
1000服务器运维运维
该项目基于新安防平台开发,考勤子系统采用 SpringBoot,该项目用于适配门禁而开发,主要 功能有全量增量同步人员信息,门禁权限下发,考勤上传工行等。 开发环境:IntelliJ IDEA、SpringBoot、JDK1.8、MySQL; 所用技术:SpringBoot+SpringCloud+MyBatis+Redis+RabbitMQ+Git+WebSocket 等;
1410java软件开发
该项目是基于企业金融基础平台重构,用于对接浙江中行工作人员的工作状态、操作流程、运钞车的使用等的合规分析,以及分析后的数据流转推送; 主要功能有: 配置中心;交易流水分析(双手递接、 现金检测、双人盘库、双人复核); 柜员状态分析(离岗检测、玩手机检测); 款箱交接; 分析数据推送等 开发环境:IntelliJ IDEA、Tomcat8、JDK1.8、MySQL; 所用技术:RESTEasy+Spring+MyBatis+WebService+Redis+ActiveMQ+WebSocket+SpringBoot 等;
1570java软件开发
该平台是金蝶多个产品线运维的统一入口,分为门户和自动化运维平台两大子系统 门户:给企业IT运维人员提供日常的运维操作 自动化运维平台:拥有统一资源管理CMDB(租户管理、集群管理、容器管理、网络管理、服务器管理等),集成了成本运营、任务管理、运维看板等模块,通过跨系统调度自动化,实现租户环境的多云部署(AWS、华为云、京东云)及客户自助化等功能,天梯门户的消息通过RabbitMQ作为载体,发送到自动化运维平台进行处理,经过作业平台的调度之后,通过消息队列发送给对应的Agent进行消费,最后再调用消息服务通知客户 1、负责制定旧系统迁移到新系统的方案并实施落地 2、参与梳理自动化运维的场景和需求分析以及跨系统调度自动化流程的设计 3、梳理开发计划和分配开发任务 4、参与基础资源CMDB的搭建,集成AWS、阿里云、腾讯云、华为云和京东云等云厂商相关接口 5、实现租户环境的自动化开通、数据中心自助化操作等核心功能,使得运维自动化程度达到了90%
5690运维
项目名称:浙江移动运营优化(2023-03 – 至今)  项目技术运用: SpringBoot、mybatis、oracle、mysql、clickHouse、xxljob、Spring Security、redis、kafka、Elastic Search、selenium  代码管理: GitLab  项目描述: 主要是针对运维人员开发,帮助他们分析线上问题,同时对其他系统提供相关的服务支持,功能包括数据采集、服务链路追踪、业务办理分析、服务访问统计、页面安全巡检、配置管理、常用的工具等  个人负责: 1、负责电渠业务数据可视化平台需求的设计,包括动态数据源、多数据采集入库、定时任务配在、报表分析展示、日/月/季度/年的数据切换和时间计算、基比数据配置化管理。 2、负责资源拦截模块的实现,涉及亿万级数据的处理、数据库和redis数据同步。 3、负责提示语模块,涉及数据同步和jar包提供。 4、负责数据库迁移任务,包括mybatis拦截器编写、SQL改写、测试环境数据库迁移、序列最新值同步等 5、负责页面巡检模块的设计及开发,主要功能包括根据配置化任务去定时检测页面健康状态,并提供对应的异常分析和报表统计展示 6、负责流量中心服务迁移到业务中心,主要是新老服务规范的变化 7、 负责5G消息模块的csf服务升级
1560java后台管理
在Change & Service Request Management团队担任Change Manager,为客户诺和诺德和NNIT内部管理变更流程。工作内容包括:  确保RFC (Request For Change)记录的完整性,确认所有必要的信息已经填入,包括业务需求,风险评估,执行计划,回滚计划,目标日期,等等  针对GxP change,审批相关的113文档,确保文档信息的完整性。和QA一起确保文档的合规性和正确签署  跟踪所有的change,确保每个change不论从技术层面还是业务层面都被完整评估和审批(包括Service Owner,Architect,本司和客户的技术专家),让每个change都能规避不必要的风险  确保所有的Urgent change和fail change都有PIR (Post Implementation Result),跟踪PIR的质量  制作月度生产力报表
1870监控ITIL
服务器自动管理 初始化 安装中间件,备份等 python 开发 爬虫 自动化 图片识别 自动化测试,接口自动化 gui自动化 移动端自动化等
1000pythonpython
golang开发的云主机性能监控系统 包含agent,web控制端 服务端。 监听云主机的运行状态,异常情况,可以设置监控指标和接受报警人
1310grpc运维
为日本和新加坡机房搭建基于 vSphere 技术栈的虚拟化平台 1. 硬件选项:基于客户需求,对物理服务器(主要考虑 CPU 性能)、存储设备(磁盘读写速率及吞吐量)以及交换机设备进行技术选型。 2. 架构方案:为整个项目提供完整的架构文档和架构图,包括网络连接架构图以及 vLan 的划分等 3. 服务器的安装:负责所有底层虚拟化系统 ESXi 的安装,以及 vCenter 的安装。 4. 虚拟化平台的架构与搭建:负责虚拟化平台的规划与搭建,包括存储及网络的规划,确保整个集群的高可用性和容错性;所有虚拟网络的规划和创建 5. 虚拟机的安装:利用 Terraform 自动化安装所有所需的虚拟机,包括虚拟机操作系统的安装(Rocky 9) 6. 虚拟机上层应用程序的安装:包括 Airflow、Redis、PostgreSql、MongoDB、MinIO 等集群的规划与创建,确保应用的高可用性
2840服务器运维vSphere
项目功能: 1.浏览本地目录,创建、编辑、删除、上传下载文件,监控、搜索日志文件内容 2.浏览sftp/ftp远程目录,上传下载文件 3.数据库客户端,支持格式化sql(ctrl+alt+f)、sql语法提示和填充、导出查询结果 4.ssh终端连接 开发初衷: 常见的日志或者监控工具由于安全原因不允许使用,只能按照安全要求定制
1440java运维
1. 项目分为以下模块 - 用户登陆与注册模块 - 服务监控模块 - 基础设施监控模块 - 过程管理模块 - 数据分析模块 - 日志查询模块 - 等 2. 积极参与服务监控模块的建设 3. 积极配合后端实现模块
1620javascript运维
基于DJango的自动化运维监控平台 模块化可根据实际运维需要添加功能 (1)主页模块 主页模块主要负责用户的登录、监控信息的分组和可视化显示等功能,提供了显示数据信息的功能是此系统中最基本的模块之一。 (2)账号管理模块 账号管理模块现主要有账号密码修改和账号密码重置等功能负责对管理员账号的操作。 (3)设备管理模块 设备管理模块有被监控设备的IP地址、功能备注、当前状态等信息。主要用于对设备资产进行添加、修改、删除的操作,除此之外设备管理模块还具有监控显示设备状态信息的功能其工作原理为使用Ping功能实现。以实现对目前所监控设备的统一管理和状态监测,利于及时处理掉线设备。 (4)性能监控模块 性能监控模块中设备信息由设备管理模块提供,在设备监控模块中的设备均会被纳入性能监控列表中。其性能监控主要有CPU占用信息、内存占用信息以及网络上下行流量信息。通过脚本定时获取设备信息,使用Python对脏数据进行清洗得到可利用数据信息,最后前端通过ajax从后端获取信息以及使用Echart对数据生成可视化图表以便于运维人员能够快速掌握当前设备的性能信息。 (5)磁盘监控模块 磁盘监控模块中主要包含着设备的挂载信息、挂载总容量、挂载使用容量以及挂载剩余容量等信息并对剩余容量低的挂载进行置顶提醒,以便于掌握各服务器挂载信息并及时对低剩余容量磁盘进行处理,避免因磁盘容量不足导致的业务问题。 (6)进程监控模块 进程监控模块主要功能为监控指定服务器中的某一进程的运行状态,其信息主要有进程名、进程ID、进程信息以及进程状态等。可随时监控进程运行状态,在其出现故障时第一时间给予处理。 (7)SSL证书监控模块 SSL证书监控模块主要用于监控SSL证书的到期情况,其主要信息有域名信息,证书开始时间,证书结束时间,证书剩余时间以及CA信息。会按照证书到期时间进行排序,并对即将到期的证书进行邮箱告警。 (8)NSG监控模块 NSG监控模块由监控解析和错误日志两部分组成,主要用于监控NSG解析情况并对失败解析进行置顶和邮件提醒。 (9)后台管理模块 后台管理模块主要对整个网页后台模板进行管理,主要使用的Django自带的管理系统。 (10)邮箱告警模块 邮箱告警模块负责对告警邮件的发送,其主要使用python的request和stmplib进行包的封装和发送。
5340python运维
背景:由于公司服务器数千台,需要建设一套成体系的监控系统、告警系统,监控内容包含:服务器状态、业务程序状态、业务数据监控、服务器各配件性能等 项目模块: 功能脚本模块: python shell 数据收集模块: prometheus grafana 数据库设计: mysql 工具模块: docker 负责内容:负责整个项目的规划、功能脚本编写、数据收集、数据库设计、项目容器化、运维等
2260python监控
当前共1478个项目more
×
寻找源码
源码描述
联系方式
提交