XXXX有限公司 服务器运维管理手册 XXXX有限公司 运维服务部 2012/8/30 一、 文档简介 2 二、 文档目的 3 三、 文档范围 3 四、 事件处理流程 4 五、 具体操作说明 4 1) 服务器硬件管理 4 2) 服务器系统管理 9 1. Windows系统管理 10 2. Linux系统管理 11 六、 相关文档 15 文档简介 本文档根据桑菲消费通信服务器硬件设备与系统应用管理需求,针对日常维护内容进 行技术归类于总结,描述具体操作步骤与操作方法,积累服务器事件处理能力,使之服 务运维能力更为主动可控。 文档目的 标准服务器故障处理方法指引,服务器管理知识库积累。 文档范围 服务器硬件故障判断与标准处理操作 服务器系统日常性能检测与标准检测 事件处理流程 具体操作说明 服务器硬件管理 1. 检查与故障判断: 服务器硬件的主动检查方式主要分三种: 设备面板指示灯检查 硬件系统日志检查 第三方工具检查 1) 面板指示灯检查 IBM服务器上面有,电源指示灯,硬盘/IDE设备活动指示灯,网卡指示灯,系统过热报 警灯.硬盘槽还有硬盘指示灯。HP服务器上面指示灯一般为UID,内部和外部健康灯 ,其他就是电源网口灯了,DELL的机种有的上面有风扇,内存,CPU,指示灯情况 ,图标都是很直观的,其它服务器与IBM,HP的差不多。 图示说明 详细描述: 2) 系统日志检查 "检查内容 " "硬件历史异常报错信息 " "计算机管理->系统工具->事件查看器,查看系统日志 " "重点关注:红色高危事件信息、日常频繁硬件报错信息 " "备注:查看硬件历史异常故障情况,分析硬件性能与使用生命周期 " 3) 第三方检测工具检查 "检查内容 " "硬件历史异常报错信息 " "HP 诊断工具: " "打开开始——程序——HP System Tools——HP Insight Diagnostics online " "Edition for Windows——HP Insight Diagnostics online Edition for " "Windows。 " "DELL诊断工具: " "第三方硬件设备诊断工具 " "IBM诊断工具: " "IBM Systems Director 、 IBM Systems Director Active Energy " "Manager、IBM ServerGuide " 相关图解: 进入诊断网页,在第一选项卡Survey中,上部有2个下拉项,左侧选择Advanced,右侧选 择All,会显示出更多硬件信息,点击右下的Save按钮保存。 此界面可以看到服务器所有硬件信息。 2. 硬件设备变更操作标准: 判断并确定最快恢复时间 判断是否有做冗余设置 判断是否需要关机操作 磁盘设备检测并确定阵列信息,确定有做数据备份 是否对其它关联应用有影响 制定回退方案,保证数据与应用的可用性 设备变更操作 设备兼容性测试 应用系统运行测试 设备变更后正式应用 3. 相关巡检记录单: 备注:《服务器信息列表》 《服务器指示灯巡检表》 服务器系统管理 服务器系统管理主要分为: Windows系统管理 Linux系统管理 Windows系统管理 1. 磁盘空间使用 计算机管理——磁盘管理 磁盘空间使用率是否已经到达80% 2. 进程监控 任务管理器——进程 查看进程的CPU使用率和内存使用率是否超阀值 3. CPU性能 任务管理器——性能 查看CPU最高峰值与一般使用率是否超阀值 4. 内存性能 任务管理器——性能 查看内存最高峰值与一般使用率是否超阀值 5. 网络查看 任务管理器——联网 检查是否能正常访问站点页面 6. 日志 记录错误报警信息 ——应用程序日志 由应用程序或者系统程序记录的事件 ——安全性日志 查看有效和无效的登录尝试事件,以及资源使用相关的事件 ——系统日志 Windows系统组件记录的事件 Linux系统管理 1. 2. 1. 平均负载(uptime) 描述: uptime命令过去只显示系统运行多久。现在,可以显示系统运行多久、当前有多 少的用户登录、在过去的1,5,15分钟里平均负载时多少。 2. 磁盘空间使用率(df -h) 描述: Filesystem 文件系统 Size 文件系统容量 Used文件系统已经使用的容量 Use%文件系统使用百分比 Mounted on挂载的目录 3. 进程监控(ps –ef " grep java) 查看应用程序启动进程数是否正常 4. 内存监控(free -m) 描述: total:总计物理内存的大小 used:已使用多大 free:可用有多少 shared:多个进程共享的内存总额 buffers/cached:磁盘缓存的大小。 第三行(-/+ buf 【服务器运维管理手册】 本文档是XXXX有限公司运维服务部针对服务器运维管理编写的详细指南,旨在规范服务器的日常管理和故障处理流程,提升服务运维的主动性和可控性。文档包括事件处理流程、硬件管理、系统管理等多个方面,适用于服务器硬件故障判断、性能检测以及系统维护。 1. **事件处理流程**: 事件处理流程涵盖服务器硬件故障的判断与处理、系统的日常性能检测等。通过设备面板指示灯、系统日志和第三方工具进行故障检查,确保能够及时发现和解决问题。 2. **服务器硬件管理**: - **检查与故障判断**:主要依靠设备面板指示灯、系统日志和第三方诊断工具。例如,IBM、HP、DELL等服务器的指示灯可快速识别硬件状态;通过系统日志分析异常报错;使用HP和DELL的诊断工具进行深入检查。 - **硬件设备变更操作**:在进行硬件更换或升级时,需评估恢复时间、冗余设置、是否需要关机、磁盘阵列信息、数据备份、对其他应用的影响,并制定回退方案,确保数据和应用的连续性。 3. **服务器系统管理**: - **Windows系统管理**:关注磁盘空间使用、进程监控、CPU性能、内存性能、网络状态及日志记录,如使用任务管理器进行性能检查和错误日志记录。 - **Linux系统管理**:检查平均负载(uptime)、磁盘空间(df -h)、进程监控(ps -ef "grep java")和内存监控(free -m),确保系统稳定运行。 文档的范围不仅限于故障处理,还涉及到知识库的积累,提供标准的操作指南,以便于服务器管理人员快速有效地应对各种运维挑战。通过定期巡检和记录,如《服务器信息列表》和《服务器指示灯巡检表》,确保服务器的高效、安全运行。 该手册对于IT运维人员来说是一份宝贵的参考资料,它详细阐述了服务器运维的关键步骤和技巧,有助于提高运维效率,减少系统中断,保障业务连续性。无论是硬件的日常检查还是系统性能的监控,都提供了清晰的操作流程,有助于形成标准化的运维实践。
剩余14页未读,继续阅读
- 粉丝: 110
- 资源: 9354
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Keil C51 插件 检测所有if语句
- 各种排序算法java实现的源代码.zip
- 金山PDF教育版编辑器
- 基于springboot+element的校园服务平台源代码项目包含全套技术资料.zip
- 自动化应用驱动的容器弹性管理平台解决方案
- 各种排序算法 Python 实现的源代码
- BlurAdmin 是一款使用 AngularJs + Bootstrap实现的单页管理端模版,视觉冲击极强的管理后台,各种动画效果
- 基于JSP+Servlet的网上书店系统源代码项目包含全套技术资料.zip
- GGJGJGJGGDGGDGG
- 基于SpringBoot的毕业设计选题系统源代码项目包含全套技术资料.zip