今天分享的是:中国联通数字化监控平台稳定性保障工具落地实践
报告共计:24页
中国联通数字化监控平台稳定性保障工具落地实践总结
一、稳定性保障工具演进历程
随着云原生技术成熟,企业IT架构进入云原生时代,多云多集群部署成趋势,云资源、微服务数量及调用关系呈几何增长,传统人肉运维难以应对,系统稳定性保障面临分布式架构和数智运维等挑战。分布式架构下,工具烟囱式建设导致能力分散、数据孤岛等问题;数智运维方面,存在端到端保障体系缺失、故障处理依赖经验、被动防御等痛点。
稳定性保障工具建设经历了从工具化、产品化到体系化的演进过程。2019年启动工具化建设,开发监控、测试、自动化运维等工具;2020 - 2021年推进产品化,形成监控管理、故障管理等产品线;2022 - 2023年迈向体系化,依托制度规范、组织架构、平台工具、运营机制四大保障,聚焦研运流程四个阶段,把控七个关口,提供端到端工具支撑,目标是做实安全生产,提升IT系统稳定性。
二、稳定性保障工具落地场景及成效
(一)可观测性建设
实现全层级指标数据采集及标准化,涵盖业务、前端触点、应用、云平台等,统一接入、存储、分析处理标准。支持跨系统、跨云平台、跨数据中心链路拓扑追踪,通过分数据中心汇总串联,完成实时追踪和方法明细分析。构建统一规范的日志采集、存储、检索与异常检测体系,应对分布式云化架构下日志数据挑战。基于全层级数据贯通和云化CMDB关联,建立故障传递模型,实现一键故障诊断,当前覆盖16套核心系统,一键故障诊断率达68%。
(二)故障自愈与隐患管理
融合告警、诊断、自动化作业能力,实现应用实例查杀、重启等多种故障自愈场景,月均自愈作业执行1000+次,平均执行耗时3秒内。从容量、链路、系统健康度视角开展隐患评估与预测,定期生成隐患报告,推动闭环治理,如cBSS系统高风险隐患项压降超98%。
(三)稳定性测试与变更管理
具备全链路读、写流量压测能力,评估业务容量水位,定位性能瓶颈节点。实现生产运营流程线上化统一管理,追踪IaaS、PaaS、SaaS全层级变更轨迹,支持多平台审批,提升变更管控效率。
(四)故障管理闭环
实现故障事前预防、事中调度、事后改进全流程线上闭环管理,通过故障演练、复盘、整改等机制,降低故障时长及次数,提升业务连续可用率。
三、当前挑战及未来展望
当前面临业务监控梳理难、链路自动拓扑难度大、自动化与智能化程度不足等挑战。未来,需应对数字化高速发展带来的工具适配性挑战,把握信创和大模型发展机遇,加强AIOps场景探索和LLM技术应用,同时注重开源生态建设,实现自主可控,提升系统安全生产保障能力,以适应更复杂的业务场景和技术变革。
以下为报告节选内容