基于业务链路的水利运维监控系统设计与实践

【摘要】针对水利业务信息化建设过程中存在的运维监控难、异常响应不及时等问题,本文利用云技术、大数据处理技术和“网-云-端”一体化的建设思想,设计了一套基于业务链路的水利业务运维监控系统。该系统从运维监控的视角出发,利用物联网和互联网技术实现了对业务系统和基础资源设备运行指标的采集,能够对故障问题快速诊断和定位,并进行综合分析和提前预警。相较于传统人工运维,本系统在整体性、高效性、准确性、预警性和资源优化配置等方面具有突出优势,为水利业务运维系统的稳定运行提供了有效保障。

关键词: 水利业务;“网-云-端”一体化;云技术;大数据;监控系统;

Design and Practice of Water Conservancy Operation and Maintenance Monitoring System Based on Business Link

In view of the problems existing in the process of water conservancy business information construction such as difficulty in operation and maintenance monitoring and untimely response to exceptions, this paper uses cloud technology, big data processing technology and the construction idea of "network-cloud-terminal" integration to design a set of solutions based on Water conservancy business operation and maintenance monitoring system for business links. From the perspective of operation and maintenance monitoring, this system uses the Internet of Things and Internet technology to collect operating indicators of business systems and basic resource equipment, and can quickly diagnose and locate fault problems, and conduct comprehensive analysis and early warning. Compared with traditional manual operation and maintenance, this system has outstanding advantages in integrity, efficiency, accuracy, early warning and resource optimization allocation, etc., providing an effective guarantee for the stable operation of the water conservancy business operation and maintenance system.

Keywords:Water conservancy business; Internet-cloud-terminal integration; Cloud technology; Big data; Monitoring system;

0引言

 

 在水利业务信息化建设的过程中,运维已成为水利IT价值实现的重要基础之一[1]当前水利业务在信息化过程中面临着服务器数量庞大,设备厂商多,应用软件繁杂,网络环境的复杂等问题,传统以人工为主的运维方式面临重大的挑战[2]。随着水利信息化建设的不断深入,“云-网-端”的架构也逐 渐应用于“互联网+水利行业”,针对传统运维方式在处理现代化水利业务所面临的问题,本文结合SNMP(Simple Network Management Protocol, SNMP)、IPMI(Intelligent Platform Management Interface, IPMI)、JMX(Java Management Extensions, JMX)、云技术、大数据以及AI诊断等先进科技,实现了“网-云-端”一体化的智慧水利监控系统[3]的建设,为解决上述业务痛点提供了创新的方案。 

一些研究者为解决运维管理中多源复杂数据管理问题,研发出了分类树数据管理体系[4]尽管当前市场上有许多运维系统,但以下痛点仍然没有得到解决:①无法对现有的众多信息化系统进行完整的监控;②界面操作不够友好,内容混乱;③无法根据业务系统构建出完整的调用链路;④对运维人员要求较高,学习成本较大,系统界面不够简洁明了,缺乏足够的智能与人性化;⑤新技术、新方法以及新管理理念的应用不足。因此,本文结合AI、大数据、云技术以及端点技术等先进科技,研发出一套完善的IT运维监控系统,将IT运维认识从战术性思维上升到战略性思维[5]。该系统最大特性在于最大限度地保障了各业务系统、IT设备资源以及网络能够安全且稳定地运行,并降低了运维工作的复杂性。

 

1.系统设计

1.1监控目标 

  以工程应用中水利工程全设备、全链路、端到端的监视为基础,实现以事件处理为驱动的设备监控、分析告警、故障定 位、故障处理、设备评价与监控告警优化的运维流程。业务的系统的建设需要众多的资源来支撑。常见的基础资源包括:服务器、存储、网络、操作系统等;中间资源:MQ、Nginx、数据库、Tomcat等。常见的业务资源包括:三方API、授权服务、微服务等。如图1所,通过对全链路资源的CPU、内存、存储、网络、以及请求状态监控,可以最大限度地保障业务系统的安全稳定运行。使用多种技术手段采集终端设备数据,通过物联网和互联网多种方式把数据汇集到云端服务器,根据业务调用链路绘制出资源调用拓扑,最终构建出“网-云-端”一体化的监控系统。

1.2系统架构设计

   本文所开发的运维监控系统,借助云技术、大数据处理、数据采集、AI智能分析和智能上报技术,充分满足了当前水利业务运维管理和软硬件资源监控的需求。该系统的逻辑结构分为数据应用层、数据分析层、数据采集层以及物理设备层,其系统业务应用涵盖了管理、智能告警、统计报表分析、大屏看板、业务链路拓扑以及知识库等功能。该系统的逻辑架构如图2所示,清晰地展示了其各个组件之间的互动与关联。

1.2.1 数据应用层

 数据应用层的主要职责是对数据分析层所挖掘的数据进行分类归纳、大屏展示、构建数据报表,以及进行智能告警推送,并对整个系统进行综合管理。此外,该层还负责将监控的数据推送至第三方系统,以打破数据孤岛现象,提升业务功能。

1.2.2 数据分析层

   数据分析层承担着多维度数据处理的重要任务,对数据采集层获取的数据进行归纳整理,使其转化为标准数据流。借助多种方式和模型对数据进行增值处理[6]系统能够实现从被动运维向主动运维的转变,从而在故障发生前及时进行处理。

1.2.3 数据采集层

  数据采集层作为整个系统的核心,是上层业务数据的主要来源。采用多种技术手段,如SNMP、IPMI、JMX、SSH、Agent代理以及接口插件等,实现对硬件设备层数据的全面采集。这不仅为数据分析层的数据挖掘提供了基础,还能根据采集的数据最终生成业务链路拓扑图。

1.2.4 设备硬件层

       硬件设备层囊括了我们所有需要监控的对象,包括服务器、虚拟机、操作系统、存储设备、网络系统、数据库、中间件、应用软件、三方接口等多种类型的资源。当我们需要对这些资源进行监控时,只需按照要求对相关硬件设备进行配置,并开启监控功能即可。

1.3系统部署

  针对水利业务信息化的建设需求,本系统可在Linux和国产操作系统上成功完成安装和部署。为了确保系统的正常运行,被监控对象需要安装相应的插件或接口,以允许监控组件的运行。在涉及数据网络安全性方面,推荐使用采集代理,开启防火墙以指定特定的端口和IP,通过采集代理的统一汇聚,实现安全有效的传输到采集服务器。根据采集的数据,业务中心将负责处理和分析这些数据,并提供关键的告警信息。一旦系统检测到告警信息,业务中心将立即将告警消息推送到外网服务器。

 

2.系统功能设计与实现

 “网-云-端”一体化运维监控系统主要包括监控概览、综合监控、告警管理、报表分析、运维管理五大核心模块。该系统结合了网络监控、云监控和终端监控的功能,通过集中管理和分布式部署的方式,为企业提供全面的运维监控服务。首先,该系统可以监测企业的网络设备,包括路由器、交换机、防火墙等。它能够实时监测网络设备的运行状态、流量情况、连接状况等,并及时报警和处理异常情况,提高网络的可用性和性能。其次,该系统还可以监控企业的云服务,包括公有云、私有云和混合云等。它可以实时监测云服务的运行状态、资源利用情况、安全漏洞等,并提供相应的报警和处理机制,确保云服务的稳定和安全。此外,该系统还可以监控企业的终端设备,如服务器、个人电脑、移动设备等。它可以实时监测终端设备的运行状态、性能指标、安全漏洞等,并提供相应的报警和处理机制,保障终端设备的正常运行和安全。

2.1 监控概览

监控概览模块负责直观地展示所有的业务系统,并启动对监控业务系统及其关联资源的监控,围绕业务构建了业务调用链路拓扑。该模块采用三色预警(绿色:正常、黄色:提示、红色:严重)的方式,实时显示资源的使用情况。根据预先设定的监控模板阈值,一旦发生越界情况,即实时发送告警通知。

2.2 综合监控

综合监控模块以分组加列表的形式,对所有监控资源进行归纳和展示,清晰地展示了故障发生的位置以及告警资源类型。该模块还提供了对监控对象的增加、删除、修改、查询、故障处理、监控模板设置以及监控触发器等多种操作。

2.3 告警管理

告警管理模块根据监控模板实时发生预警,并通过短信、邮件、钉钉、企业微信等多种方式通知运维人员进行处理。同时,该模块还记录了告警信息,追踪告警处理情况,并精准推送给责任人。告警管理模块还根据告警处理方式形成了知识库,对告警信息进行归纳总结,为后续再次发生故障提供了处理经验

2.4 报表分析

   报表分析模块根据业务需求,从不同维度对监控信息进行统计。例如,资源分配、磁盘使用率、CPU、内存、网络、数据库等多个角度进行统计,形成监控日报和月报等分析报表。此外,根据监控采集的数据,对重点关注信息构建监控大屏,从全局的角度把控所有业务系统的运行状况,为故障处理提供重要的决策支持。

2.5 运维管理

运维管理模块负责对整个系统进行管理,拥有IP规划、告警规则、知识库、巡检分析、网络拓扑设计、大屏看板设计等众多功能。进一步丰富了该系统的功能多样性,使其成为一个功能强大的运维管理工具。通过智能化的运维管理,运维人员可以更加高效地进行工作。

 

3.系统应用

  自水利运维监控系统在水利部太湖流域管理局部署并稳定运行以来,该系统已经在许多方面取得了显著成果。截止到现在,该系统已成功接入了28个业务系统、62个操作系统、2个数据库、3个中间件和166个虚拟服务器,以及其他类型的资源,如服务器、存储设备、交换机、防火墙、负载均衡设备等共计298个,充分满足了各种不同类型的监控需求。项目上线以来告警功能表现优秀,监控接入率已达到90%,意味着超过90%的关键资源已经能够通过该平台进行实时监控,并产生了超过4万条告警信息。这些信息对于及时发现并解决潜在的故障或问题提供支撑,为保障各个业务系统的稳定运行起到了重要作用。

该平台的应用帮助水利部太湖流域管理局实现了从被动运维到主动运维的转变。对于那些持续发生或者间断性有规律产生的告警,该平台提供了强大的数据分析和归纳总结能力。根据这些告警信息,运维人员可以迅速找出问题的根源,并且采取有效的措施来解决它们。对于一些经常性发生的告警,通过加大资源和分布式负载均衡的策略,重新调度资源,使业务系统达到性能最佳值。对于某些资源使用率低、有大量空闲资源未使用的情况,则通过增大业务权重、增加业务系统部署,使闲置资源得到充分利用。 

系统在功能实现上,以运维台帐作为核心基础功能,通过采集引擎完整全面收集运维对象的基础信息以及运行状态信息;然后通过流域级别的运维拓扑视图,展示当前设备的运行状态与网络链路的连通状态,也能从业务的维度展示关键业务涉及的软硬件设备、链路状态以及对应服务进程的运行状态;当设备出现故障时,通过 Web 或者 APP 进行告警,根据告警信息生成工单,通过工单派发进行告警故障处理并且可以通过组屏图有效指导运维人员找到需要维护的设备;故障处理完毕后可以通过运维知识库积累运维故障处理经验,同时在派发工单中,可以利用知识库检索智能找出故障的处理建议与方案,为故障排除处理提供辅助;在数据分析报表方面,提供整体运维态势统计分析展示功能,从宏观上查看流域设备在线率,在线分布,故障率及故障分布,并统计故障处理执行情况从不同维度生成月报。

3.2 未来展望与优化

尽管当前的业务系统已经在监控需求方面得到了满足,有效地保障了业务的稳定运行,并简化了运维工作,但我们仍有改进优化的空间。在未来的展望中将包括更多的自动化、更智能的功能、更广泛的数据来源以及更简化的管理。通过不断的创新和发展,将能够提高运维的精准性,并成功应对IT运维多样化的挑战。为了达到这个目标,我们计划从以下几个方面对系统进行优化:

(1)不断探索自动化和智能化的可能性,以减少手动操作并提升系统的自适应性。优化安装部署环境,实现一键安装部署,简化安装过程,降低安装难度,从而节省运维人员的时间和精力。

(2)通过利用机器学习和数据分析,对数据进行深度挖掘,提高告警的准确性。通过引入先进的算法,接入AI大模型,在推送告警信息的同时,给出相应的解决方案,使运维人员能够更快地定位问题并采取有效的应对措施。

(3)加大自动化运维的能力,实现自动安装监控插件,降低运维操作步骤,减轻运维人员的工作负担。通过自主研发或引入先进的自动化工具,进一步简化安装和部署过程,提高系统的稳定性和可靠性。

(4)将采用更加精细的授权模式,如RBAC(角色访问控制)授权方式,对数据进行分权分域,并对关键数据去敏操作。这将使数据的授权更加精细化和规范化,提高数据的安全性和可靠性,同时满足业务需求。

 
4.结语

     随着水利系统信息化的深入建设,出现了越来越多的业务系统,同时运维人员的需求也相应增加,人工运维已经难以满足当前的需求。本文介绍的基于业务链路的水利运维监控系统应运而生,它的出现主要是为了解决这些问题。该系统始终以业务系统为中心,全方位保障业务系统的安全稳定运行。在这个目标下,该系统采用了自动化监控、智能化告警、自动巡检和可追溯式的运维等先进技术,构建了完整的业务链路拓扑。在实际使用中,该系统满足了水利建设复杂运维的实际需求,表现出了良好的性能和稳定性。通过该系统的应用,运维人员可以更加快速、准确地发现和解决问题,提高了运维效率和质量。此外,该系统的开发和使用还为日后其他大型水利系统信息化建设提供了可参考的技术和理论依据,具有很高的参考价值和发展潜力。

参考文献:
[1]许维明,尉飞新,宗志锋,等. 基于政府IT治理的水务IT服务管理平台[J]. 水利信息化,2012(2):10-15.

[2]苗丰慧. 我国水利信息化建设所面临的困难与发展趋势[J]. 农业科技与信息,2019(6):118-119.

[3]谈震,舒依娜,刘敏,等. 水利工程智能运维"云-网-端"全链路监控系统的研究与设计[J]. 中国农村水利水电,2022(9):19-24,29.

[4]张晓霞. 浅谈水利工程建设中水利防汛信息技术的应用[J]. 中国设备工程,2022(14):231-233.

[5]张文豪,李蕊,陈建. 大数据技术在水利工程信息化建设中的运用[J]. 科技创新与应用,2020(6):177-178.

[6]张杰. 基于SNMP的网络管理系统的研究与实现[D]. 上海:东华大学,2008.

[7]谈震,舒依娜,刘敏等.水利工程智能运维“云-网-端”全链路监控系统的研究与设计[J].中国农村水利水电,2022(09):19-24+29.

[8]徐晓莉,刘哲,钮月磊等.水利运维一体化管理系统的设计及应用[J].江苏水利,2022(02):69-72.

[9]薛智文. 基于云模型的水利信息化水平测度研究[D].华北水利水电大学,2022.

[10]王闻通,孙猛.水利工程自动化监控系统中网络安全管理的思考[J].治淮,2022(12):69-71.

[11] 严栋飞,姜仁贵,解建仓,等 . 基于数字地球的渭河流域水资源监控系统研究[J]. 计算机工程,2019,45(4):49-55.

[12]金 袭,林 玲,俞扬峰,等. 基于GIS的区域小型水库群移动智慧管理系统研发[J]. 人民珠江,2020,41(4):108-116.

[13]骆光磊,周建中,赵云发,等.水库群运行的改进深度神经网络模拟方法[J].水力发电学报,2020,39(9):23-32.

[14]谭 倩,缑天宇,张田媛,等.基于鲁棒规划方法的农业水资源多目标优化配置模型[J].水利学报,2020,51(1):56-68.