没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
机房运行维护工作建议书
为加强********单位数据中心机房各系统的运行维护和管理工作,保证系统长期稳定、
高效运行。根据**************信息化工作管理规定,编制适合于******机房运维方案。
1. 运维现状分析
******数据中心机房目前由*******部门管理,由指定的外协公司承接基本运维工作,
其职能限定于出入安全、配件管理、设备管理、运行物理环境管理。对于设备本身及其
运行维护、软件运行维护等工作,仍由各个供应商按项目签订的协议提供免费服务,目
前这些免费服务大部分处于过期或者即将到期的状态。
目前机房运维没有涵盖桌面终端、大楼综合布线、楼层配线间与设备间等,未构成
一个完整的运维体系。
1.1. 故障连带现象
多方运维导致机房出现中断或者服务不良的情况时有发生。********公司机房由于始
终未能受到规范统一的运维管理,加上机房作为数据核心,由各种外部单位组成的运维
团队无论在数据安全性、人员责任感、技术全面性等方面,都难以保持机房的持续性运
转。
我们没有精确的数据来说明机房的运行情况,这也是目前运维工作尚未达标的一种
表现,同样,这也导致我们对现状无法进行精确描述。但是,通过一些现象仍然可以发
现机房运维工作应该大幅度改进。
1.1.1. 长时间断网
具体原因不详,但由于机房服务器大部分无法接通,成都地区的二级单位网络依赖
的 DHCP 服务无法使用等现象持续多个小时,发现晚,响应慢。
1.1.2. 上班时间网速慢
具体原因不详,但简单归结为 SEP 或者人多并不能完全的解释网速慢的问题,由于
网络是信息化建设的基础,充分发挥机房内部与外部的资源是运维工作的重要职责。
1.1.3. 服务意外退出
当虚拟机系统开始引入后,我们时常发现挂载在虚拟机系统上的一些服务器无故宕
机且不知道任何原因,当用户需要使用时,由于无法自动恢复,影响正常工作。
1.1.4. 不易寻找责任人
机房是一完整的整体,涉及到环境、网络、服务器、存储、操作系统、数据库、应
用软件等,当一个故障发生时,难以判定故障原因,而目前机房是各个外协单位各施其
责,最终造成故障排除时间缓慢,相互推诿的情况时有发生。
1.2. 半自动化运维现状
目前许多企业的 IT 运维已经实现从人工运维到计算机管理,但延展咨询在同客户
的交流中发现其中很多企业的 IT 运维管 理还只是处在“半自动化”的运维状态。因为
这种 IT 运维仍然是等到 IT 故障出现后再由运维人员采取相应的补救措施。这些传统式
被动、孤立、半自动式的 IT 运维管理模式经常让 IT 部门疲惫不堪,主要表现在以下三
个方面:
1.2.1. 运维人员被动、效率低
在 IT 运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,
这种被动“救火”不但使 IT 运维人员 终日忙碌,也使 IT 运维本身质量很难提高,导致
IT 部门和业务部门对 IT 运维的服务满意度都不高。目前绝大多数的企业 IT 运维人员日
常大部分时间和精力是 处理一些简单重复的问题,而且由于故障预警机制不完善,往
往是故障发生后或报警后才会进行处理,,使到 IT 运维人员的工作经常是处于被动“救
火”的状态, 不但事倍功半而且常常会出现恶性连锁反应。
1.2.2. 缺乏一套高效的 IT 运维机制
目前许多企业在 IT 运维管理过程中缺少自动化的运维管理模式,也没有明确的角
色定义和责任划分,使到问题出现后很难 快速、准确地找到根本原因,无法及时地找
到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在
处理问题时不但欠缺规范化的解决 方案,也缺乏全面的跟踪记录。
1.2.3. 缺乏高效的 IT 运维技术工具
随着信息化建设的深入,企业 IT 系统日趋复杂,林林总总的网络设备、服务器、
中间件、业务系统等让 IT 运维人员难以 从容应对,即使加班加点地维护、部署、管理
也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题
部分原因是企业缺乏事件监控和 诊断工具等 IT 运维技术工具,因为在没有高效的技术
工具的支持下故障事件很难得到主动、快速处理。
现在随着 IT 运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”
或“技术大拿”来包打天下已经行不通 了,企业开始需要运用专业化、标准化和流程
化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,
主动的告诉用户需要关注的资 源,以达到防患于未然。例如,全天候自动检测与及时
报警能实现 IT 运维的“全天候无人值守”,大大降低 IT 运维人员的工作负担。而且,
通过自动化诊断能最 大限度地减少维修时间 ,提高服务质量。因此 , 对于越来越复杂的
IT 运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。
1.3. 规范制度不健全
IT 系统三分建、七分管,运维管理十分复杂,技术要求高,涉及范围广,实施难度
大,突出有“三难”。
1.3.1. 职责难明
IT 系统运维管理离不开使用、建设、运维三方的共同努力。不能将所有运维责任归
于运维部门,运维部门与其他部门相互配合程度低,导致运维人员压力大,处理事务多。
哪些由使用部门负责,哪些由运维部门负责,难有明确的职责界定。
1.3.2. 资料难全
网络设备价格和系统集成复杂度不断降低,部门自建“网中网”、“小系统”现象
愈加普遍,资料准确性和完整性不断降低,给清查设备和排查故障带来很大困难,运维
部门掌控系统资源越来越难,运维管理资料难求完整。
1.3.3. 绩效难估
运维部门有个“两难”境界:系统问题越多,工作量越多,但有人认为维护水平越
低;维护水平越高,问题越少,但别人认为工作量越少。
运维部门绩效评估难以用业务部门类似的指标来衡量,不能受到公平评估。因此运
维人员积极性越来越低,人员流失率高。
2. 总体目标
2.1. 机房运维管理规范化、流程化、制度化
鉴于最终用户对信息化服务持续性供应的要求, ******数据中心机房运维工作急需
由被动式变更为主动式,针对以下内容进行规范化管理,确保其持续运行时间与工作性
能满足生产需求。
机房环境,包括温度、湿度、供电、防雷、消防、承重等;
机房设备,包括服务器、交换机、存储、网络安全、通讯等设备;
机房链路,包括骨干光缆、机房跳线、收发与中继等;
机房应用软件的运行监控,包括门户、办公、生产、财务、网络等应用软件等;
机房软性资源,包括 IP 地址、VLAN 等。
对于以上各个项目类别,基本上都包括监察、报警、故障排除、优化等工作,由于
应用软件等受到供应商的限制,其故障排除与优化往往只能由供应商提供,但对其运行
剩余62页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6550
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功