论文研究-IP网络的快速故障恢复 .pdf

所需积分/C币:5 2019-08-15 16:17:26 414KB .PDF

IP网络的快速故障恢复,张民贵,刘斌,随着互联网的迅速发展,人类通信对其依赖性日益增强,而IP层故障恢复能力低下,阻碍了互联网性能的提高.近些年来,国际学术界对IP网络快
山国阚技记文在线 总的故障恢复时间控制在亳秒级必须缩短 间隔虽然从产生 包所造成的处理器费用和 包上用的带宽来看加快 包的产生速度不会给网络造成太大的负担但是 间隔缩小后网终 中路由振荡次数急剧增加导致网络不稳定在文献中仿真得出当前互联网中最优的 间隔可以缩 短到 第部分时间用于过滤掉端口状态的振荡式变化在文献的实验中端口状态下跳变和上跳变使 用的延迟分别为和第部分时间受的最小产生间隔 的约束这里 是 为」防止网络改备状态频繁变化导致过多的控制开销而给出的时间间隔如果路由器刚刚吏新过那么下 次该的更新至少要等待 的时间间隔的更新间隔不能太短否则会导致网终不稳定 例如 中规定 为第部分时间和网络直径有关系在网络中洪泛时每前进一跳需 要的时间在到之间第部分时问将受算法运行间隔的约束因为算法的运行过程开 销较大为了防止算法的运行过于频繁商用路由器通常会对算法的运行间隔加以限制有的使用固定 值有的使用可变的间隔但是这个间隰通常不宜小于第部分时间中算法的运行时间和网络的规 模有关因为算法通常使用 算法该算法的复杂度可以达到 这里是网终中的链路数 是目的路由器的数目在文献的实验中这部分时间为 到 之间可以釆用增量计算的方法 来减少开销而第部分时间中路由表更新的时间可以这样得到当前路由器中更新个路由入口的时间约 为照此计算对于影响上千个路由入口的常见故障米说路由表更新的时间需要几百亳秒的时间第部分 时间为 由此可见加快路由收敛的上要限制因素来自用于确保网终稳定性的延迟随着技术的进步路由器生产 厂崗已经能够将这些延迟缩小到亳秒级且不影响网络稳定性但是这些路由器在目前的互联网中并没有广泛 部署因此在当前的互联网中在缃持网络稳定性的前提下使路由的收敛时间低于还很难做到 2.2使用主动式故障恢复 在路由收敛完成之前数据包会因为目的节点不可达或路由产生坯路等原因而被丢弃为了满足网络稳 定性要求短暂性的、频繁发作的故障会被过滤掉而不被处理然而这些故障正是网终屮最常见的故障使用 主动式故障恢复就是在故障产生之前就计算好替代路径当故障发生吋直接利用替代路径进行通信和传统的 主动式故障恢复不冋这里旳主动式故障恢复不必为替代路径侦留网络资源使用主动式故障恢复能够在亳杪 数量级的时间内亢成障恢复而且这类方案特別适合解决短暂性的、频繁发作的故障可以作为路由收敛 完成之前进行故障恢复的一道防线因此该类恢复方案的研究得到了长足的发展 A 图1中的基丁端口转发 文献提出了故障非敏感路由 的方法使用基于端口转发的方法进 行故障恢复如图所示网络没有故障时到的通信路径是 当链路发生故障时从节点到 的包会从返回通过检查包的进入端口可以推断链路和发生了故障否则不会将去往的包 发到端口这样节点不必等待故障通知就可以选择避开故障的通信路径 特别适合解决短暂 性的、频繁发作的单链路故障由于这类故障是网络中的多发故障因比可以大幅度地提晑网络的故障 灰复速度在故障发生时抑制了故障引发的路由收敛过程使用上面提到的基于端口转发的方法确定各 价路径这个确定备份路径的过程可以在故障发生前亢成故是一种主动式故障恢复方案 山国科技记文在线 C5-(D y 图2中的正常配置和备份配置 文献提出了多配置路由 的方法将路由层的节点和链路 看成有多个配置并用包中的 字段来标识这些配置如图所示对于相同的拓扑结构通过对链路赋予 不同的权值得到两个不同的配置正常配置和备份配置假设链路故障在正常配置中从节点到 的通信路径 将受影响而在各份配置中将的权值设为较大权值如该配置中所有链路的权值之 和这样当运行算法计算到的路径时将成功避开链路选择通信路径 如果在某个备份配 置中将与节点相连的所有链路的权值设为较大值那么在该备份配置中运行算法吋该节点将被避开故 还能用于解决节点故障在的备你配置中运行算法确定备份路径的过稈可以在故障发生前完成 因此也是主动式故障恢复方案 个 图32路由示例 文献提出了二出度 路由的方案路由要求从某个节点出发对于任何口的节点都 至少有两个互不重合的下一跳可以到达如图所示对于目的节点网络中的所有节点都满足路由的要求 链路在文献中被定义为百搭链路只有或两者中的一条产生故障时才能使用在路由中 当去往目的节点的某一条路径出现故障时可以迅速地将通信切换到另外一条路径上进行产生路由的 算法和传统算法中常用的 算法不同可以将路由看成是一种新的路由协议和传统的路由协 议相比除了故障恢复的速度快以外路由的优势在于网络的负载更加均衡故障发生后在本地完成故障恢 复而不必在全网内洪泛故障信息网络更加稳定路由可以在枚障产生前完成因此路由也是主动式枚障 恢复方案 标准组织也提出了人量主动式故障恢复方案例如文献和文献类似也为网络配置多个拓扑 通过在备份配置中运行算法来建立备价路径文献将节点、链路和作为故 暲单元描述∫对每个目的节点都给岀其备份路径的方案文献在检测到故障后将数据包封装在不经过地 址中以避开故障单元文献使用隧道技术建立备份路径在文献中由检测到故障的路由器的上游邻居 路由器负责建立绕过故障的各份路径 2.3提高检测故障的速度与准确性 故障的快速与准确的检测是其能够被及时有效恢复的基础而使用层原有的 协议检测故障必须 在两个目标之间进行折衷一方面为了满足故障检测的准确性获得全网详细的故障信息必须进行 泛这需要借助于层的路由收敛过程但是这个过程需要的时间较长另一方面为了加快故障检测速度以保 证对故障做岀及时响应就必须抑制层自身的路由收敛过程这必然又会降低故障检测的准桷性对网络的 快速改障恢复来说改障检测速度匕准确性更重要下面讨论如何在确保检测速度的基础上解决检测不准确带 米的问题 印国科技记又在线 节点故障 链路故障 图4节点A故障或链路故障导致端口失效 在抑制路由收敛过稈之后路由器无法从其他路由器接收这样在路由器的某个端口失效时将无氵 区分究竟是由节点故障还是由链路故障导致的如图所示源节点向目的节点发送数据包无论是节点 失效还是链路失效都会导致收不到的 包这时不能确定究竞是出了故障还是链路 出了故障这样在故障产生时存在两种解决方案统一假设链路出现故障统一假设节点出现故障在故障 假设发生错误时就会岀现问题如果采取第·种解决方案如图所示失效导致收不到来自的 包假设链路失效因为是去往的关键节点到的路径已经不存在了但仍然会建立到的无 效路径 替代路径无效是因为故障节点出现在该路径中接下米收到米自的数据包后会再次假 设链路失效然后继续査找去往的替代路径这相当」将单个节点故障替代成多个链路故障分别进行处 理这种解汏方案牺牲了故障恢复的速度在文献中采用了这种解决方案如果采取第二种方案如图所 示链路失效导致收不到来自的 包假设节点失效虽然去往的路径还存在例如 和 但是无法建立去往的替代路径这种解决方案夸大了故障但是加快了故障检测和恢复 的速度在文献中采用了这和解决方案 层 物理层 图5层和底层拓扑结构不一致对故障检测的影响 由于层的拓扑结构和底层拓扑结构不完仝对应底层的单个故障往往会导致层的多个并发故障如图 所示物理层的链路出现故障时将同时导致层的链路和产生故障通过在层进行的 洪泛最终能够知道也产生了故障但为了提咼故障检测的速度需要扣制这种故障信息在全网的洪泛操 作这样节点通过 只能判断无法到达而无法知道也不能相互通信同样在选择替代路径 时无法把排除在外就会建立无效的替代路径如果将这些并发故障作为多个故障分别进行处理可以解决 替代路径无效的问题但是必然降低故障检测和恢复的效率因此需要将这种并发故障作为单个故障单元进行 处理如果在层建立的替代路径和底层故障单元是不相交 的就能够保证替代路径的有效性这要求 我们做到故障的有效隔离在文献中利用共风险链路组 来隔离故障网络中 的单个设备如线卡、管道等产生了故障会导致多条层的链路失效将这些链路划分到同一个集合中就 得到了 中只要有一条链路出现故障就认为该中的所有链路都出现了故障例如图中物 理层的链路产生故障时会导致层的链路和失效即 再如物理层的节点 产生故障会导致层的链路和同时失效即 文献的思路是找出和故障单 元可能相交的所有链路的集合在建立备份路径吋避开这些集合有的链路同时属于多个 例如链路 同时属于 和 如果产生故障需要假定两个集合中的所有链路出现了故障这种做法虽然 在一定程度上夸大了枚障的影响范围但是能保证建立冇效的替代路径同时也使障检沨的速度得以提高将 作为故障单儿能够解决部分多条链路同时发生故障的情况这是因为发生故障的链路之间存在联系然 中国利技论文在线 而对于相互之间不存在联系的多条链路同时发生故障的情况这种方案就无能为力了 在中使用了一和特殊的故障隔离方式即在链路产生故障时假设障链路下游的链路也产生了枚 瘴如图所示链略发生故障后认为链路也产生了故障这种方案和使用 作为故障单元的 做法类似也是夸人了故障的景响范围从图中可以看出建立的备你畩径 不是到的最短路径 显然这种做法会降低故障下游链路的利用 由此待出故障检测速度慢故障检测不准确和无法知道底层故障的细节都是路由层协议的局限所 造成的如果层能够直接利用底层的故障检测信号例如 层的警告信号 那么故障的检 测速度将大大加快 而且知道底层故障的细节故障检测的准确性也提高了然而有的介质并不艾持底层 的故障检测信号例如以人网不支持 的警告信号在这种情况下只能依赖于路由层的 协议来 检测故障为了克服 协议的局限在文献中设计了一种独立于路由层的双向故障检测协议 的基本原理和简单的 协议类似在建立连接的两个通信实体之间期性的互发包如 果一方连续地收不到另一方的包就认为连接屮断但是和路由层的 协议相比拥有很多优势 首先 适应于各种传输介质其次可以工作在网络的各个层面这为了解底层故障细节提供了途径另 根据应用的需求建立会话并可以实时地协商、调整发包周期通过缩短发包周期可以缩短故障检测的 时间 3推动|P网络快速故障恢复方案的实现 网络快速故障恢复的研究取得了很大进展但也存在不少局限所提出的方案中有的适合解决链路故障 而不擅长解决节点故障有的适合解决单链路故障而不擅长解决多链路同吋发生故障的情况等等当前要推 动网络快速故障恢复方案的实现进程需要在三个方面做岀努力对故障恢复后的通信负载进行均衡从而 有效地利用网络资源防止拥塞的发生研究对备份路径进行高效更新的算法对快速故障恢复方案进行互 操作测试设计路由器的伓系结构以支持快速故障恢复方案的实现卜面对这三个方面进行论述 3.1故障后的负载均衡 在主动式故障恢复方案中主要关注如何缩短故障的恢复时间而对于恢复后的通信负载如何在网络中进 行均衡分配则考虑的不多他们或者没有考虑故障恢复后通信负载的均衡问题如或者为了便于分析假设 链路的容量足够大如 在网络产生故障时这些方案简单地将枚障路径上的通信转移到备份路径上传送 这种转移容易造成备份路径的拥塞为了避免这种转栘造成通信负载的不均衡分配导致网络昋吐能力的卜降 需要对故障后的网络实施流量工程通过配置和资源预留在屮可以方便地进行流量工稈避免 通信负载失衡但是在纯网络中情况将有所不同流量工程需要通过合理地设置链路权值米实现 用有向图来表小网络链路的容量为通信负载为链路的利用率为 直观地讲 流量工程的目标是对于任意的∈维持≤成立但这个目标过于笼统在文献中定义了描述链路费用 的区数 <∞ 其中∈Φ显然随着链路利用率的増加费用也在增加而且增加的速度不断加快尤其当链硌利用率超 过即链路发生拥塞时将∑Φ作为日标函数并寻求其最小值可以将流量工程转化为线性规划问题来 解决链路杈值的设置决定了算法的运行结果进而决定了通信负载在网络中的分配最终决定了目标函数 巾国科技论文在线 的取值寻求最优的权值设置已被证明是难问题需要借助启发式算法来设置链路权值 文献和中分别提出在各份配置中通过权值的设置进行流量工程的设想在文献中首先确定各 份配置中费用较大的关键链路集合然后将备份配置中每糸链嵱的权值设置为某个随机数通过多次试探来 寻求减小日标函数∑Φ的权值设置文献在确定之后试探性地增加中链路的权值以转移其通信 负载和文献相比针对可能产生的故障在相应的备份配置中进行独立的权值设置更有利于解决由于故障 路径向备份路径转移通信流量所造成的通信负载尖衡的问题 B A d 图6路由计算与链路利用率互反馈导致网络进入振荡状态 (图中用箭头粗细表示通信负载的人小 需要指出在上述链路权值调整的过程中路由计算依赖于链路利用率同时又影响链路利用率二者之间的 互反馈容易导致网络进入振荡状态根据文献 中权值设置的原则链路利用率越大应当设置的权 值乜越人以便于其转移通信负毂为简化分析我们假设每条链路的容量相同而链跻权值设置为 其中和为常数造成网络振荡的例子不难构造如图所示假设某网络处于状态时节点 都要 向目的节点进行负载量为的持续通信根据算法建立的通信路径如状态所示对处于状态下的网 络进行链路杈值的调整链路 的权值分别设置为 再根据算法建立的通信路径如状态所示同理由状态得到状态但是在对状态下的网终进行权值调 整后网络又返回状态这样网络将在状态和状态之间来回振荡实际上只要链路权值随着链路利用率单调 增加都可能导致网络进入振荡状态在实际的网络中可能产生的振荡情况更加复杂需要采取措施避免振荡 的发生 3.2对P网络快速故障恢复方案的支持 实现网络快速故障恢复方案不可避免地要对现有协议及路由器的体系结构做出改动加快路由收 敛的方案需要缩短 协议中包的发送间隔并缩短产生、更新以及运行算法的计时器延迟在 主动式故障恢复方案中所作的改动有需要识别包的进入端口而当前在层进行路由查找时不考虑 包的进入端口路由算法中使用了一种非的路由查找算法和需要使用包的业务区分字段 宇段来标识不同的拓扑配置但是路由在互联网中直很少被采用 加快故障检测速度的方案需要抑制层的路由收敛过稈使用独立于路由协议的故障检测协议来保证 故障快速准确检测 优秀的协议应当满足对该协议进行独立地实现时各个不同的实现版本之间能够协调工作为此需要支 持网终快速故障恢复方案的设备生产商之间进行互操作测试通过在大量路由器构成的拥有复杂拓扑的实 际网络中运行快速故障恢复方案来不断发现并改进协议中存在的不足设备生产南可以定期地举办会议也 可以借助专门的平台来进行互操作测试例如新罕布什尔大学互採作性实验室网络快速故障恢复方案的 逐渐成熟并在互联网中丿泛采用需经历一个长期过程 山国酗技论文在线 路由生成算法 链路状念数据库 ① 转发表更新算 下一誡地址M区跳息入国 下一斟地K 绋也址2 跳地址I ▲ 转发友 井行查找羊元 并行查找单元…并行查找单元 希算法 分类器 下一跳地址K s字段 其他 图7主动式故障恢复方案的路由器体系结构模型 从路由器角度来看为支持快速故障恢复方案的实现需要提髙路由器的性能改进路由器的体系结构为支 持路由的快速收敛以及使用来实现故障的快速检测必须提髙路由器的处理器速度为支持主动式故障 恢复需要在路由器的转发表中存储备份嵱径的下一眺地址信息.这将占用路由器额外的存储資源主动式故障 灰复方案需要计算备份路径在中路由器需要判断到达包的进入端口在和中路由器需要读取 和修改包的字段这也将占用路由器额外的计算资源在实现主动式恢复方案时为节省路由器有限的存储 资源和计算资源同时保证其高吞吐率需要设计新的路由器体系结构参考文執和我们在图给出了主 动式故障恢复方案的路由器体系结枃模型其中路由器运行眳由生成算法从链路状态数据库生成路由 表路由表中既存储了工作路径的卜一跳地址也存储了备份路径的卜一跳地址路由表中的信息经过压 缩后通过转发表更新算法插入到路由器线卡的转发表中如何组织网终中的路由器按序更新自己的转发表 防止更新过程中产生路由环路目前还是个新的研究方向对于特定目的地址在转发表中存在多个下跳 地址可以到达因为下一眺地址需要维护地址等信息重复存储下一跳地址会占用转发表额外的存储空间 所以模型中使用它在下一跳地址表中的入口来代替如图中的下一跳地址入口到下一跳地址入口 在文献中就采用了这种方法路由器通过查找目的地址来确定卜一跳地址入口为了提高查找速 度通过分类器将查找仟务发射到并行查找单元中 并行查找单元根据目的地址查找转发表得 到多个下一跳地址入口在和中哈希算法的输入是包的字段作为其他输入在中 哈希算法的输入是到达包的进入端口的信息在中输入是工作路径产生故璋与否的信息等等为了在下 跳地址入口到下一跳地址入口中做出快速选择需要使用哈希算法的输出根据哈希算法的输出选 出下跳地址入冂并访问下跳地址表得到真正的下·珧地址 总结 通过本文的论述可以得到以下结论 为提高互联网的性能必须増强网络故障恢复能力层的路由收敛使互联內拥有一定的健壮性但 是因为要在全网洪泛故障信息路由收敛过程需要的时间过长低下的故障恢复速度无法满足实时业务、复用 程度高的业务以及关键性业务的需求互联网拓扑结构变化频繁要保证其可靠性必须加快其故障恢复速度 提高网络的故障恢复速度主要有三条途径加快路由收敛使用主动式故障恢复统一假设 链路、节点 或下游链路宀生故障或者使用独立的故障检测协议如等以提高故障检测的速度与 准确性 为推动网终快速故障恢复方案的实现需要做好以下工作通过调整链路杈值来解决网终中故障 恢复后通信负载失衡的问题但同吋要防止网络振汸的发生通过互操作测试促进快速故障恢复方築协议簇 的成熟重新设计路由器的体系结构以支持快速故障恢复方案的实现 山国利技论又在线 参考文献 石兵厝明天宽带网络中预先恢复路由配置的研究电子学报 山国技记文往线 倪甦华唐宝民 网终多路径动态流量分配的研究电子学报 作者简介: 张民贵男年生于山东青岛清华大学计算机科学与技术系博士研究生研究方向为网络 故障恢复、网终安全 刘斌男年生于山东临朐清华大学计算机系教授博士生导师主要研究领域为高性能 路由器 交换结构与理论、 交换技术、网络处理器和网络安全等

...展开详情
试读 10P 论文研究-IP网络的快速故障恢复 .pdf
img

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-IP网络的快速故障恢复 .pdf 5积分/C币 立即下载
    1/10
    论文研究-IP网络的快速故障恢复 .pdf第1页
    论文研究-IP网络的快速故障恢复 .pdf第2页
    论文研究-IP网络的快速故障恢复 .pdf第3页

    试读已结束,剩余7页未读...

    5积分/C币 立即下载 >