现代信息中心已成为人们日常生活中不可缺少的部分,因此信息中心机房设备的运行正常与否
就非常关键。在数据中心 生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也
是历时最长的一个阶段。加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨,以
此不断提高 IT 运维质量,实现高效的运维管理。这就给运维是否到位提出了严格要求。
1 运维在机房中的地位
在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长
的一个阶段。数据中心运维管理是,为提供符合要求的信息系统服务,而对与该信息系统服务有
关的数据中心各项管理对象进行系统地计划、组织、协调与控制,是信息系统服务有关各项管理
工作的总称。数据中心 运维管理主要肩负合规性、可用性、经济性、服务性等四大目标。
在信息中心机房配备有运维人员,但大都是“全才”的,即什么都管,尤其是对供电系统大都
是由主机运维的人员代管。当电源系统出故障时,此代管人员一问三不知,甚至连配电柜门都没
开过。这实际上就是把机房的运维放在了一个次要的地位。
当然也有的地方有所分工,看似重视,实际上也没得到真正地重视。比如说机房设备长时间
一直运行正常,这时如果运维人员提出要增添运维方面的测量设备,有的领导就认为多余,很难
得到批准。但他不知道机房设备所以长时间一直运行正常,正是由于这些运维人员的细心维护和
努力保养所获得的。并不是这些人员每天闲着无事可干,他们的这些工作一般是领导看不见的。
比如同样多款的 UPS 在同样的环境条件下,在某卫星地面站就极少出故障,而在同系统别的地
方机房同一家同规格的机器就故障连连。原来是前者的运维人员每天都在细心观察和分析机器面
板 LCD 上显示的数据,一旦发现异常苗头及时采取措施;而后者只限于每天抄写这些数据就算完
成任务,使异常苗头不断积累,以致于导致故障。比如断路器在额定闭合状态发现触点处温度高
了,就要检查是不是电流过大到超过额定值,如果不是就要检查触点接触是否牢靠,是否需要再
紧固一下。这样一来,故障隐患就排除了。如果一直不管不问久而久之就会导致跳闸而使系统崩
溃。这都是一些小的动作,都是在巡查中顺便做的事情。所以同是运维人员在巡查,但前者在做
事而后者只是走马观花。这就是数据中心可靠与不可靠的区别。
运维人员就像幼儿园的保育员和老师。孩子交到幼儿园后,起主要作用的就是保育员和老师,
这时保育员和老师就是主体。机器就好比是幼儿园的孩子,孩子是否健康成长,机器是否正常运
行,除去本身的健康(可靠性质量)状况外,那就是运维人员的责任了。由于云计算的要求弹性、
灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性,除基于 ITIL(IT 基础设施
库)的常规数据中心运维管理理念之外,以下运维管理方面的内容,需要我们加以重点关注。
2 云计算数据中心运维管理的要点
数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运
维对象一般可分成 5 大类:
这里主要指的是为保障数据中心 所管理的设备正常运行所必需的网络通信、供配电系统、
环境系统、消防系统和安保系统等。这部分设备对于用户来说几乎是透明的,比如大多数用户都
不会忽略数据中心的供电和制冷。因为这类设备如果发生意外,对依托于该基础设施的应用来说
是致命的。