没有合适的资源?快使用搜索试试~ 我知道了~
KQI指标优化指导书.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 74 浏览量
2023-09-04
21:00:31
上传
评论
收藏 5.37MB DOCX 举报
温馨提示
试读
37页
KQI指标优化指导书.docx
资源推荐
资源详情
资源评论
KQI 指标优化指导书
一、管道 TCP 指标
1.1、管道 TCP 定义
在对用户使用数据业务进行问题评估和根因追溯时,也经常通过 TCP 相关特性逐段缩小范围来实现。因此,
在 PS 数据网络中通过对 TCP 可靠传输的特性,可以采用适当维度的 TCP 数传指标来衡量网络对数据传输
过程中的影响,并对数据传输经过的网元的转发性能进行客观评估,来找出网络中影响用户感知的隐患。
1.2、关键指标
根据数据传输的时间顺序,相关 TCP 指标可以分为 TCP 建链阶段、TCP 启动阶段、TCP 数传阶段和 TCP 终
止阶段。由于 TCP 终止阶段主要和成功率类指标相关(WEB 自定义失败码涉及),而 TCP 特性更多关注的
是 TCP 数传对速率、时延感知类的影响,因此在指标方面主要侧重于前三个阶段。
TCP 指标是基于网络管道的基础指标,反应网络质量;KQI 指标是基于业务感知,评估用户使用业务的感
受。TCP 指标用于问题的分析定界和闭环。
各阶段的主要指标及打点如下图所示:
场景
TCP 指标
对应打点位置
备注
TCP 1,2 次握手
rtt_est_cn
建链阶段
TCP 2,3 次握手
rtt_est_radio
TCP 握手至 Get 间
时延
Terminal response dealy
启动阶段
首码响应时延
Server response delay
无线端数传时延
radio_dataX_rtt
计算平均值
服务端数传时延
rtt_dataX_cn
计算平均值
接收端窗口大小
Receive Window
发送端窗口大小
SEND Window
区分上下行
数传阶段
丢包
Packet lost
区分采集口上下&上下
行
场景
TCP 指标
对应打点位置
备注
乱序
Out of sequence
区分上下行&轻度/重度
(未引起重传为轻度乱
序)
重传
Retrans downlink
区分上下行
下 行 连 续 重 传 时
延
Continuous retransmission
delay
饥饿时延
Hungry delay
区分终端侧&服务器侧
分片率
IP Fragments(outer)
区分上下行
对于业务层面 KQI 质量劣化问题的定界,由于网络传输质量引发的问题最终会分解到具体的 TCP 参数进行
辅助定界。因此业务层面的 KQI 问题定界分解到 TCP 层面后和本文所述的相关指标定界思路一致,具备通
用性。
1.3、指标评估
TCP 指标的评估主要是通过指标的稳定性、指标与基线值的比较(前提是指标稳定)、指标分段比较的方
式来进行网络问题排查。其中指标的分段式比较主要是根据 TCP 路径的不同及共用性来排除部分网络因素。
例如核心网以上的 TCP 时延到公网 SP 出现异常,但到内网 CDN 服务器正常,则由于核心网以上到公网 SP
和到内网 CDN 之间共用了核心网的资源,内网 CDN 服务器的指标正常说明核心网是正常的,因此可以推
断出是核心网之后的设备到公网 SP 之间出现问题,可以排除核心网问题。
下表是参考的 KPI 基线,对于采集口以上指标,主要考虑具体组网结构、访问的 SP 所在网络中的位置,建
议参考该网络忙时的过去 1-2 周到平均值来设定对应网络的参考基线。
指标
参考基线
备注
TCP
丢包率
<1.5%
TCP
传输平均时延
(
采集口上)
50ms
与组网相关
TCP
传输平均时延
(
采集口下)
<=100ms
TCP
握手时延
(SP
侧)
30ms
与组网相关
TCP
握手时延
(
无线侧)
<=150
TCP
乱序率
<1%
TCP
重传率
<0.5%
1.4、分析定界
1.4.1、网络级 TCP 时延劣化定界
网络级 TCP 时延的分析主要是从管道化细分到网元的过程,这其中包括了对 TCP 管道之间的比较。如图所
示,假设分布于同一条传输管道上的 SP 有 B、C、D 三个位置,A 表示 DNS 的位置,则若 OB 段的 TCP 时
延指标有劣化的情况下,OA 段、OC 段正常,则可以表明 B 点的 SP 有问题或者 B 点 SP 到管道之间的一小
段有问题;同理若到 DNS 指标异常,而 OB 段 TCP 时延指标正常,则表明 DNS 服务器异常,而不是核心网
路径异常。因为若是传输管道异常的话,必然会影响到经过该管道的所有指标。
Smartcare
Probe
DNS
A
B
C
D
O
当然,并不是网络中都存在类似界限分明的 SP 闭合点给探针进行测量。在对一个网络进行 TCP 管道规划
设计时,一方面尽量寻找不同的路径来供多维比较,另一方面若具备条件,可以和主动测试探针或者测试
服务配合构造出不同的路径来衡量网络质量。
1.4.2、TCP 滑窗协商机制
TCP 协议提供了体积可变的滑动窗口机制,支持端到端的流量控制。TCP 的窗口以字节为单位进行调整,
以适应接收方的处理能力。处理过程如下: (1)TCP 连接阶段,双方协商窗口尺寸,同时接收方预留数
据缓存区; (2)发送方根据协商的结果,发送符合窗口尺寸的数据字节流,并等待对方的确认; (3)
发送方根据确认信息,改变窗口的尺寸,增加或者减少发送未得到确认的字节流中的字节数。调整过程包
括:如果出现发送拥塞,发送窗口缩小为原来的一半,同时将超时重传的时间间隔扩大一倍。
TCP 的窗口机制和确认保证了数据传输的有序性,可靠性和流量控制。 TCP 的滑动窗口的要点如下: 1)
源站不一定要发送出整个窗口大小的数据; 2)窗口大小可由目的站将其增大或减小; 3)目的站可在任
何时候发送确认。 如果滑动窗口大小为 10,在收到目的站的任何确认之前,源站可以发送一直到 10 个字
节。但是,源站若收到对前 3 个字节的确认,它就将窗口向右滑动 3 个字节。
TCP建链时延或数传时延
劣化(采集口以上)
多维比较确定是运营商网络内
问题?
SP问题
排查该TCP管道TOP SP是否
异常?
N
Y
运营商互联网出口到
SP之间路由问题
排查其他TCP管道到对应SP是
否异常?
Y
N
Y
短板网元问题
按网元
(GGSN/PGW/SGW/Gat
eway)分析该TCP管道是
否有短板网元?
采集口以上共
性传输段问题
TCP建链时延或数传时延
劣化(采集口以下)
按网元(SGSN/BSC/RNC/eNodeB)分
析该TCP管道是否有短板网元?
采集口以下共
性传输段问题
该网元下排除TOP用户或
TOP终端后是否指标正常?
TOP用户/终
端问题
短板网元问题
Y
N
Y
Y
N
N
TCP 时延指标定界逻辑可以参考上图所示。由于相关 TCP 管道及维度指标无法预设,该定界思路落地采用
故障树定制方式实现。对于无法使用故障树的场合,可以使用 SEQ 平台的多维数据查询功能进行相关维度
指标获取,并结合图 6 的判断逻辑进行故障定界。
需要说明的是,在实际的定界应用中,一般 TCP 建链时延和 TCP 数据传输平均时延互为参考来看。从实际
经验来看,若网络中终端和 SP 之间的网元只参与存储转发功能,则这两个指标一般是联动的,因此在分
析中常放在一起并列参考。
不同网元维度的 TCP 定界指标,可以通过 KQI 指标定制实现。
1.4.3、传输类指标劣化定界
TCP 传输类指标一般情况下不建议作为单独监控指标,该类指标和用户感知没有直接的线性关系,通常作
为定界速率或时延类问题的参照指标同步比对。当前 SEQ 平台对传输指标主要可以实现如下分析:
TCP 丢包率:SEQ 平台当前实现的丢包率分为采集口上的上/下行丢包、采集口下的上/下行丢包。在
网络中影响丢包的主要有终端、网元、SP,因此在定界时主要区分接口上下对该指标分解到上述三个
维度进行分析。
TCP 乱序率:SEQ 平台当前对乱序率区分了上/下行的轻度乱序和重度乱序。轻度乱序在理论上对网络
没有影响,因此分析时一般只参考重度乱序,重度乱序由于引起了网络中数据包重传因此可能会影响
到用户速率和感知时延等指标。乱序一般是网元引入,在网络中下行乱序影响较大,在定界时主要分
解到网元进行分析。
TCP 重传率:SEQ 平台当前实现了有载荷的上/下行重传指标计算及全量重传率计算,在实际中一般情
况下有载荷的重传率是分析对象,影响因素和丢包率类似,因此定界方法也和丢包率一致。
剩余36页未读,继续阅读
资源评论
通信瓦工
- 粉丝: 283
- 资源: 5047
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功