摘要:为了维护好数据中心机房动力环境,及时发现隐患和排除故障,降低管理成本控制能耗,提高运维效率,保障数据中心安全、高效、环保、稳定的运行,针对目前机房管理的现状,建设一套更加直观高效可视化的机房自动化监控系统是十分必要的。文章基于综合业务实时监控系统技术架构,设计统一监控、集中管理的监控平台,将整个机房监控及管理所需要的重要信息进行综合处理,实现高度统一的界面展示、信息共享、相互协调和联动功能,减少了管理人员的负担,实现一体化“监、管、控”。
关键词: 数据中心;机房;动环;监控;可视化
0引言
随着信息技术的发展和普及,四川省气象探测数据中心机房里运行的天擎、天镜、资源池、核心网络和安全设备,集约化精细化程度越来越高,气象数据量飞速增加,计算机系统及通信设备数量与日俱增,规模越来越大,中心机房、计算机系统和通信网络已成为各大单位业务管理的核心部分。为保证其安全正常运行,与之配套的机房动力系统、环境系统、消防系统、保安系统要时时刻刻稳定协调工作。传统的机房管理往往不能及时排除故障,对事故发生的时间及责任也无科学的管理;更缺乏对已发生的故障作全面的分析数据,使得问题不能得到完善的解决。
本文基于省级综合业务实时监控系统技术架构,充分研究机房动力环境所亟需的综合监控需求,设计数据中心机房监控系统。该系统对机房多种设备实现了集中监控,主要包括机房动力系统监控、机房环境系统监控和视频监控,具有完善的监测和控制功能。通过Web页面展示,实时记录各类事件,对故障事件提供及时的告警,有效提高了运维人员的管理效率,能够快速高效的排除故障,并对已发生的故障做出全面的数据分析,实现了机房可靠的科学管理。
1功能设计
1.1 物理架构
该系统由通信局(站)、区域监控中心、监控中心、用户终端、上层管理平台组成,层次分明、结构简单、逻辑清晰。采用分布式部署,在每一个数据中心分别部署一台监控主机,
作为该数据中心的前端数据采集器,记录本地监测数据、操作记录、告警发送记录等,并支持控制传感器。该系统的物理 流程图如图1所示。
图1 机房监控物理结构
1.1.1 通信局(站):由环境监控主机、传感器、监控模块等组成,实现对现场环境、动力设备、消防安防等数据采集。现场传感器通过双绞线接入到环境监控主机接口上,各种
智能设备通过智能监控模块将采集到的数据直接接入环境监控主机。
1.1.2 区域监控中心:由区域监控服务器组成(可由监控中心服务器集成服务,分配访问权限),监管及运维区域内通信局(站),存储区域内通信局(站)上传的数据。同时向上级监控中心转发区域内各通信局(站)的数据。
1.1.3 监控中心:由主监控服务器、备监控服务器、智云中心组成,存储通信局(站)上传的数据,系统采用B/S架构,作为数据后台可支持前端PC设备、客户端App等多种方式访问。同时提供接口,可向第三方传输数据,便于集成。
1.1.4 用户终端:客户端App、PC端浏览器等多种方式管理、查询、控制、运维、信息推送等。可实现各种统计报表、数据分析挖掘、告警管理、运维管理、权限管理和系统配置管理等。
1.1.5 上层管理平台:通过VPN、公网等方式将环境监测的数据传输至第三方兼监管平台,集中数据大屏展示。系统具有良好的扩容性,对于监控对象的增减,机房增减,系统只需在原有设计的基础之上增加相应的传感器和监控模块,而无须更改整个系统的原始设计,即可把新增的监测内容和监测对象整合到原有系统内。
1.2 技术架构
服务器端拟采用Linux操作系统,客户端拟采用WindowsXP/Windows7/Windows10等操作系统。
1.2.1 编程语言:拟采用Java、Python编程语言,前端运维门户网站及管理界面采用J2EE技术架构和Java编程语言进行系统开发,后端的数据采集、数据存储管理等功能采用探针、Python脚本、爬虫、Spring JPA等技术进行开发,以满足系统的数据来源多样性要求。
1.2.2 数据存储服务:数据存储服务程序拟采用Java等编程语言进行开发,采集数据主要通过接口进行读写,配置信息拟复用天镜系统作为数据存储平台。
1.2.3 数据通信服务:拟采用Java等编程语言进行开发,数据通信服务程序提供FTP/HTTP/Socket等多种通信接口,以便和多个数据源进行数据交换。
1.2.4 用户界面:拟采用AJAX+HTML+CSS3、React框架技术进行开发,丰富客户端功能,支持IE9.0以上、Chrome2.x以上或其他主流浏览器。
选用主流工具和成熟的基础软件:开发平台、智能报表工具、在线编辑器、WebGIS、数据库等主要开发软件和基础软件均选用稳定高效的主流开发工具,如Eclipse 3.3.x、IDEA
2018、Jasper Report、iReport、FCKeditor、HXGIS、Mysql、Restful等。
统计分析程序调用接口采用WebService技术实现,通过应用服务器的负载均衡策略,实现程序调用的高并发响应。如图2 所示。
图2 机房监控技术架构
1.3 平台架构
系统基于全国统一的气象综合业务实时监控系统(天镜)数据库,对接现有省局机房系统信息,按照天镜数据库入库接口规范,将机房系统的监控数据资源录入天镜数据库,然后通过数据获取接口获取已入库的数据资源。机房动力环境监控平台架构包括数据支撑层、数据存储层、技术支撑层、应用层和展示层5个部分,系统组成如图3所示。
图3 机房监控平台架构
数据支撑层实现平台所需监控数据的采集和处理,包括服务器,数据库、网络设备等基础软硬件资源,对接核心业务平台如状态数据对接CTS、省级综合业务监控系统。监控数据源主要包括机房设备状态数据、机房温湿度数据、UPS监控数据、机房实时视频监控数据、业务告警数据、火情漏水监控数据等。
数据存储层通过省级综合业务监控系统数据接口进行数据读写,数据存储包括状态数据(如精密空调运行状态、配电开关运行状态等)、数据指标数据(如温湿度实时数据等)、采集任务配数据(如定时任务时间、频次数据)等。技术支撑层包括数据采集(探针、爬虫)、对接和web服务(Spring Boot等)、展示(Echarts、D3、React、Nginx、三维可视化组件)等方面所涉及的技术支撑。
应用层包括数据采集分析、机房设备运行状态监控、机房温湿度实时监控、配电开关监控、监控信息可视化展示、监控告警等,通过API接口与现有省级综合业务监控系统对接。
展示层主要包括监控信息的可视化,实现各分系统监控功能展示及可视化视图展示,告警信息推送给各级业务保障和管理人员。
2 系统功能
系统功能主要包括动力监测,环境监测,系统日志,告警 管理,数据统计,权限管理等模块。系统首页如下图4所示。
图4 系统首页展示
2.1 机房动力监测
包括市电监测、配电开关状态监测、UPS监测。市电监测实现是通过在配电柜中安装一个电量仪,电量仪连接市电的进线和电流互感器的连接线,然后将电量仪用双绞线与环境监控主机传感器接口相连。从而达到监测电压U、电流I、频率、功率因素、有功功率、无功功率等参数。配电开关状态监测实现是通过在配电柜中安装一个配电开关模块,配单开关模块并接
空气开关的出线和连接电源防雷器输出的信号,然后将配电开关用双绞线与环境监控主机传感器接口相连。从而达到监测市电配电主要空气开关断开或闭和状态,电源防雷器(带开关量输出)的状态。UPS监测实现是通过用数据线或网络线将UPS直接连接到智能监控模块上,由智能监控模块将数据转发到环境监控主机上,这样监控主机就可以直接获取到UPS的各项运行参数、工作状态、报警信息。从而达到监测UPS整流器、逆变器、电池(电池健康,含电压电流等数值)、旁路、负载等各部分的运行状态与参数。
2.2 机房环境监测
包括温湿度监测、漏水检测、视频监测。温湿度监测实现是通过将温湿度传感器布置在需要监测的区域,将采集到的信号传送到环境监控主机上,在Web页面上以动态的电子地图,实时监测处于不同空间位置的温湿度的真实值。漏水检测实现是通过在易产生漏水的区域铺设漏水感应线,将感应线接到漏水控制器上,再将控制器的输出信号接到环境监控主机。当漏水感应线检测到有漏水发生时,系统会立即报警。视频监测能对机房进行实时监视并在Web页面查看,系统支持视频多画面浏览、录像回放、视频控制管理。
2.3 系统日志
系统日志对自身及主机的操作、运行、访问、告警均有日志记录以便追溯问题。自身系统日志记录包含:操作日志、访问日志、告警发送日志。主机日志记录包含:访问日志、操作日志、事件日志。
2.4 告警管理
当监测项超过设定的上下限值,判定为告警事件,为避免环境监测量处在设定的上下限阈值波动时,系统不断地重复判断为报警事件,重复发送报警信息,增加预警状态,仅当监测量越过上下限值一定的时间才判断为报警事件,预警时间可设置。告警展示通知告警信息及告警反馈信息流水式展示,在告警台主页面实现对严重告警信息及反馈信息流水式查看,以时间规律查看严重告警生成情况,并通过查看某个时间的告警事件,告警信息能够自动关联故障源的配置信息,掌握故障资源的相关管理信息,提升故障处理效率。
2.5 数据查询
数据统计可选择查询的起止时间和查询的传感器来查询该监测点在这段时间内的数据。查询的内容含有数据采集时间、描述、类型和数据。可对历史数据做趋势分析、对比分析,告警数据做告警次数统计、离线次数统计,并可查看更多数据。可选择起止时间、选择具体某一个监测对象来进行小时、日、月统计。
3安科瑞动环监控系统介绍设备选型
3.1软件介绍
通过数据中心动环监控系统,实现了对数据中心的门禁状态、水浸状态,烟雾状态,视频状态,环境状态,高低压配电状态,设备运行状态进行实时监测,并进行实时报警,保障数据中心正常运行,避免运行环境的失控导致配电设备运行故障,保证维护人员安全,延长设备使用寿命,减少配电室粗放式管理导致成本过高。同时实现动环监控并对各用能耗能进行能效分析,帮助用户实现用能效率的优化。
系统功能
(1)展示当前数据中心总能耗,IT能耗,空调能耗,及其他能耗并且计算出当前数据中心实时PUE值,通过仪表盘形式直观展示。
(2)选择查看数据中心的中低压配电系统主接线图,并在一次图显示配电系统当前遥测、遥信数据和状态。实时监测各配电柜的电压、电流等电力参数,变电站的温湿度、烟感、水浸、门禁等环境情况。
(3)电气接点温度实时监测,断路器触头、触臂、母排和线缆连接等位置安装无线测温传感器监测接点温度,便于提前发现温度异常导致的事故。
(4)监测各变压器各项参数,包括负载率、频率、功率因数、三相不平衡度等,并且显示历时曲线图,数据实时变化。
(5)电能质量在线监测,可以监测电流和电压谐波畸变率、电压暂升暂降暂中断等暂态事件记录、ITIC容忍曲线等。
(6)系统采集UPS输入、输出端和旁路三相电压、电流、有功功率、功率因数频率,同时监测UPS温度、蓄电池电压、当前负载下的剩余时间等数据。
(7)展示单体电池电压、内阻和温度,预测电池带载时剩余时间,每节电池数据均可以设置异常报警,及时发现蓄电池异常。
(8)展示精密配电柜内进线和馈线回路电气参数,包括电流电压功率电能以及开关状态,并可以对数据进行报警设置和分级,数据取自精密配电柜测量模块。
(9)展示智能小母线的始端箱和插接箱电气参数,包括电流电压、开关状态、插接点温度,并对数据进行报警设置和分级。
(10)通过平面图显示数据中心能源分布,设备分布情况,并显示设备能耗数据,点击平面图上设备可以进入具体设备监控界面。
(11)实时显示当前数据中心PUE值以及历史PUE曲线。并且显示各分项用能的用能情况及用能排行。监测各变压器运行及负载情况,给出本月变压器输出电能排行。
(12)显示电能消耗日/月/年报表,并可对具体回路选择曲线图、饼图进行展示。对数据中心用电数据进行同比、环比分析比较,查看用电趋势。
(13)监测精密空调的回风温湿度,出回水温度,并可以设定精密空调的温湿度,达到更好的控制效果。
(14)监测数据中心温湿度、开关门、水浸、烟雾、噪声、气体浓度状态等参数。曲线图直观明了,同时支持历史数据查询
(15)通过列表显示各类报警事件数量,通过柱状图显示逐日报警数量,提供报警总数以及增长趋势。
(16)维管理功能,可针对数据中心各主要设备进行巡检派工,消缺,抢修等维护工作。
3.2动环监控系统设备选型
4结束语
该研究从顶层设计出发,建立数据中心综合监控管理平台,实现机房基础设施的一体化监控、管理。该系统具备全面的监控管理功能、系统兼容能力、系统扩展能力。设计建设流程化、信息化、自动化、智能化、可视化的数据中心基础设施监控管理系统。
可以实现机房基础设施精细化管理,保障机房可用性;实现高度统一的信息共享、相互协调和联动功能,机房整体监控及管理所需要的重要信息进行综合处理、集中管理;实现各子系统之间的信息共享和集中的设备监控、报警管理等功能,并通过信息发布系统实现关键信息的展示与交互操作。
为机房内各系统及设备运行提供高度稳定可靠的监控信息资源,减少了管理人员的负担,能够快速高效的排除故障,并对已发生的故障做出全面的数据分析。