产品介绍:
《STK监管平台》采用Jenkins体系,提供了基于Prometheus架构与ELK架构的物联网内部监控管理系统;集成了告警管理,监控管理,日志管理以及事件管理等多种功能,因而具有较强的实用性、统一性、事件性和安全性
职责范围:
首要,负责运维监控体系、日志采集方案的建设、维护和实施;
主要,负责接口公司IT支撑部、信息安全部的监控类相关工作;
次要,负责部门统一日志监控告警平台的设计和开发工作。
工作业绩:
1、搭建Prometheus高可用监控系统,建设监控自动化接入Jenkins任务。承载部门15个区域,2000多台服务器,25类监控接入与管理。并创建自动备份任务,使监控数据冷存储1年,在线存储6月
2、搭建ELK基于k3s+docker高可用日志系统,建设日志自动化接入Jenkins任务。承载了部门15个区域,2000多台服务器,并支持3种日志类型采集,采集量可达100亿条/日。并使用elasticsearch-curator索引存储自动化管理工具,对日志数据冷热转换及合并关删操作
3、STK监管平台开发。利用django+celery+vue3实现了日志监控全生命周期管理、ES集群管理、告警管理及事件管理,为业务侧提供了平台化的日志监控管理工具
4、golang自定义Exporter编写。为业务侧提供用户个性化定制监控工具,共计编写了5类
5、实现日志、监控服务基于云原生的建设维护;为部门智慧安消平台提供了云原生环境下基于loki、grafana的日志、监控能力,支撑业务侧进行容器编排环境下,服务监控和日志排查等工作
6、实现基于SRE方法论的黄金指标监控及告警对全量业务的覆盖,优化了监控看板,提升了看板的可读性
7、保障了各项目(行车卫士、路尚、车务通、网关)新环境部署业务监控、业务日志的监控生命周期管理,及相关故障处理、使生产环境业务监控日志有7*24小时运作