论文研究-基于Ganglia校园网格监控系统研究与改进 .pdf

所需积分/C币:5 2019-08-16 13:54:25 323KB .PDF
收藏 收藏
举报

基于Ganglia校园网格监控系统研究与改进,鲍丙香,,在校园网格环境中,网格监控系统是重要的组成部分,对校园网格的平稳运行、发挥网格系统的效能起到了重要的作用。本文介绍了作为
国武技论文在线 grm王 归档救据 n雌 解析存入数 A儿文档 据库 图数据归档流程图 阈值失效告警机制 在校园网格系统运行中,有两种情况严重影响着系统的安全、平稳、高效的运行。是 网格系统中某个节点,甚至是某个集群的某项指标已经接近或者超过了极限,这种情况下, 即使还能提供有效的服务,但是服务的质量和效率将会大打折扣,还有一种情况是系统中的 节点直接宕机,即这个芍点已经处于失效的状态,无法为用户提供服务。 针对这和情况,本文提出在 系统中建立失效阈值告瞀机制,共分为两级 阈值级告警:失效级告警。针对节点指标超出阈值和节点失效所采取的解决方法也是不 同的,对于前者,管理员要暂停执行的用户作业,或者为用户分配其他可用的、空闲的或是 资源数据远远低于其阈佰的资源上执行,加强对超过阈值的资源的保护,从而使得整个校园 网格系统的总体的负叆率下降,使其能平稳的运行;对于后者,管理员就要根据监控系统的 数据,找出发生宕札的节点或集群管理节点,重新廾启机器,并找出宕札的原因,做好记录, 防止再次发生宕机的现象。如果是集栟管理节点宕柷,则会对整个校园网格正常运行造成重 大的影响,直接导致了管理节点所辖的节点不能参与到整个系统的运作,且采集资源数据的 不完整,发生这种情况,管理员要及早的采取措施,防止影响进一步扩大化。应努力、尽量 避免发生这种情况。阈值告瞀机制的实现思想是:资源指标阈值的设定,管理员要根据网格 系统历史运行数据,设定某些资源的阈值,参考数据库表中的历史归档数据,对其进行充分 的数据挖掘,利用里的统计和排序语句操作某个指标字段得值进行统计,再定义字段 指标的阈值,使得数据厍表中指标字段的数值落在范围里的概率是 我们认为落在阈 值范围外的概率总和为的事件是小概率事件,是不会发生的。从而得到了资源某项指 标的阈值。 失效告警札制的实现思想是:将阈值数据存放到阈值数据表中,就可以将实时采集的某 个指标的数据与阈值数据比较,从而得出当指标是否在正常范围內。在这里,需要指岀的是, 目前设定的阈值是针对当前的,以后会由于各种因素的变化,阈值还可能会作相应的修改。 下面以节点的资源为例说明,对资源的系统使用率设定一个阈值,当使用率 低于设定的阈值,就表明此时节点运行正常,反之,则说明节点的使用超过了负荷 本系统中,由 采集 指标的数值,只要与设定的阈值作比较,可将比较的 结果或者存入告警数据库中,在网页中显示比较的结果。目前,也已实现这项 功能。对于节点失效,在网格系统正常运行时,利用的 技术解析 收集 到的资源监控信息文件,此时我们可以得到系统中所有的主机数,并赋予一个变量, 并与下一阶段采集到的资源监控信息中的主札数比较,如果两者相等,则说明系统中不存在 宕机的节点,反之,则说明系统中有节点宕机,而且可以告知系统中宕机的主机数目;如果 两者差值大于,则很有可能是某个集群的管理节点宕机。 国武技论文在线 改进实现 实验环境由校园网格中两个不同的集群纽成,集群 由个刀片组成 而 由个刀片组成,另外有一台台式机来汇集上述两个集群的监 控数据。通过在终端敲入命令 ,就可以得到所有的监控数据,可以先 在某个目录下建立文件,然后将命令的输出重定向到此文件。关于 采 集的资源指标的具体含义,可以参看其帮助文档。 使用 工具査看归档数据库中的数据,如图所示。 4 object VirD saL Cassander Table: anglia real ti pedata 面 地上11重主工他色山 6 Info Colum国 Data.s Eew Count Frinuy Eere Inde甲你 " recordtrme no stram 120100901203104o0 NIC EM clister100333 nodea hoc? 2201009012031:04如 I NIC IBM 9 t00336 nod he? a010-09-01 20: 31: 04 num NIC IBM Cluster 0了1 0.1 2010-05-0t 20.3104 NC BM chuster D332 none t hnc 2 T010-05-0T 20 31 04 nutn NC IBM CLuster D335 noneS nnc? 20100901203140u0Mcr t024 node3.h9e2 图归档数据表中的数据 Hosts Threshold. Wamning Tne means the data within the threshold range Hosts Failure Warming There are no s Downl ID Name 戡sn郾 out Cpu sys Dsk tee Loar15tod5 Load_1 Mem free Ps nPlso 1Nc旧 M cluster 0333 2 NIC IBM Cluster 100.336 true true tue true true tms true tre true tnse 3NC旧 M Cluse “00331 true tue Ueue 4匚Mcr0332 truetrue tue true true true"ue■ truetrue 00335 6 NIC BM Cluster 00334 true true rue tue truetrue true truetuerue 图阈值和失效告警页面 这里,有选择性的选取了个指标,总体上可以代表影响系统性能的各个方面。此外, 告警的时间设定是分钟,这个佰也是可以修改的。从图中我们可以很直观的知道了网格 系统口前的运行状况,日前,网格系统中没有出现宕机的状况 结束语 本文主要针对 监控系统在数据归档方面及阈值和失效告警方面进行了有意义的 探讨和改进实现,实验结果表明,历史数据的归档对分析网格运行状况有很重要的意义,对 于阈值的设定也很有参考价值,并可以评价网格系统的性能;而阈值失效预警机制的实现, 使得管理校园网格更加方便,更加简单,保障了校园网格安仝,平稳,高效的运行。下一步, 我们将实现用户自定义阈值范围的工作。 参考文献 魏文国张凌董守斌等一个可靠的集群簇网格监控系统计算机应用 何酬平刘立程改进的基于 的网格监控系统广东工业大学学报 北京:清华人学出版社

...展开详情
试读 4P 论文研究-基于Ganglia校园网格监控系统研究与改进 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于Ganglia校园网格监控系统研究与改进 .pdf 5积分/C币 立即下载
    1/4
    论文研究-基于Ganglia校园网格监控系统研究与改进 .pdf第1页
    论文研究-基于Ganglia校园网格监控系统研究与改进 .pdf第2页

    试读已结束,剩余2页未读...

    5积分/C币 立即下载 >