数据业务网络流量分析专题
分析报告
2008 年 12 月
目录
数据业务网络流量分析专题...........................................................................................................1
分析报告...........................................................................................................................................1
目录 ..................................................................................................................................................2
1 绪论 ..............................................................................................................................................3
1.1 研究目的............................................................................................................................3
1.2 本文内容............................................................................................................................3
2 数据描述.......................................................................................................................................4
2.1 数据来源与采集方式........................................................................................................4
2.1.1 已识别业务说明.....................................................................................................5
2.2 符号说明............................................................................................................................5
3 GPRS 网络业务的识别.................................................................................................................6
3.1 GPRS 业务信息特征..........................................................................................................6
3.2 业务流量识别度................................................................................................................7
3.2.1 业务的狭义识别度.................................................................................................7
3.2.2 业务的广义识别度.................................................................................................8
3.3 业务流量的归类分析........................................................................................................9
3.3.1 十大网站的流量占比分析...................................................................................10
3.3.2 视频业务的流量占比分析...................................................................................11
3.3.3 音频业务的流量占比分析...................................................................................11
3.3.4 IM 业务的流量占比分析......................................................................................12
3.3.5 证券业务的流量占比分析...................................................................................13
3.3.6 业务流量综合排名 top10.....................................................................................13
3.4 业务用户数的归类分析..................................................................................................14
4 GPRS 网络业务的特征...............................................................................................................17
4.1 APN 分布特征..................................................................................................................17
4.2 协议分布特征..................................................................................................................17
4.3 contentType 分布特征......................................................................................................19
4.4 时段分布特征..................................................................................................................20
4.4.1 流量/用户数分布..................................................................................................20
4.4.2 平均流量分布.......................................................................................................21
4.5 号段分布特征..................................................................................................................21
4.6 活动时段分布特征..........................................................................................................22
5 十大网站的二级栏目分析
.........................................................................................................23
5.1 十大网站信息描述..........................................................................................................23
5.2 十大网站的流量分布......................................................................................................25
5.3 十大网站的用户数分布..................................................................................................26
5.4 主要栏目分析..................................................................................................................28
6 高流量用户的特征分析.............................................................................................................31
6.1 高流量用户分析描述......................................................................................................31
6.2 高流量用户信息..............................................................................................................31
6.3 高流量用户数的流量分布..............................................................................................32
6.4 高流量用户行为分析......................................................................................................32
7 应用与展望.................................................................................................................................36
附录一 已识别业务的详细信息...................................................................................................36
附录二 ContentType 的二级目录信息 .........................................................................................39
1 绪论
1.1 研究目的
随着移动通信网络覆盖范围的扩大、手机资费的调整以及手机终端使用的智能化,GPRS
数据业务得到了快速发展,GPRS 数据流量成倍递增。
那么,手机用户的数据业务使用爱好是如何?数据业务的分布趋势又是如何?为了更好
的分析数据业务的现状和动态发展趋势,我们有必要对 GPRS 网络中各种各样的数据业务产
品进行规则识别,研究提取数据业务产品本身自有的一些特征性来完成海量数据中的业务识
别,对 GPRS 网络用户产生的数据业务流量进行拆解,支撑市场营销工作。
1.2 本文内容
本文在 GPRS 网络上采集 11 月 4 日全天的 Gn 数据/traffica 系统数据的基础上,对用户
业务数据信息进行规则分析识别、建立规则模型、业务数据聚类分析以及 Gn 数据/traffica
系统数据的位置关联分析进行了研究,主要内容安排如下:
第 1 部分对数据业务流量专题的研究目的进行了概述。
第 2 部分对数据来源与采集方式及业务流量的识别思路进行了总结描述。
第 3 部分分析研究了移动 GPRS 数据业务的识别度,并完成了对各种数据业务的归类
分析,从总体上对业务流量的占比进行了分析研究。
第 4 部分研究了 GPRS 数据业务的流量分布特征及用户数分布特征,分析 GPRS 网络
业务的特征。
第 5 部分对高流量用户的信息进行分析,了解高流量用户的数据业务行为。
第 6 部分对数据业务流量的具体分布信息进行分析。
第 7 部分对数据业务的研究工作进行了总结和展望。
2 数据描述
2.1 数据来源与采集方式
GPRS 网络数据的采集一般可以通过 GPRS 核心网 Gb 口、Gn 口、Gi 口进行抓包收集,
其中以 Gb 口的数据抓包最为精细,不但可以提取用户的业务数据,而且能提取到用户的位
置信息(精确到小区 CGI),但其投入的信令采集费用比较高,因此在本项目中采用了一种
折衷的数据采集方式(即通过 Gn 口对用户的业务数据进行采集,并结合 Nokia 的 traffica
系统对小区 CGI 信息进行关联分析)。如下图:
图表 1 GPRS 数据采集逻辑图
如图 1 所示,本文研究数据主要来自两方面:
z Traffica 数据
采集自 Traffica 系统数据库,主要提供各手机用户使用 GPRS 数据业务的位置
信息(cgi);
z Gn 接口数据
通过对 GN 接口 GGSN 侧(GGSN1~GGSN8,GGSN11~GGSN12,共 10 个
GGSN)端口进行镜像采集,主要提供各手机用户使用 GPRS 数据业务的控制
信令信息(包括 PDP 上下文激活、PDP 上下文更新和 PDP 上下文去激活)和
数据业务行为记录(包括用户使用 GPRS 数据业务的详细信息,如在线时间、
IP 地址、端口、业务类型、流量等)。
本研究所使用数据源自 2008 年 11 月 4 日(周二)0 时至 24 时的本地 SGSN 数据,其
中 Traffica 数据 30G,Gn 接口数据 2.45T 数据(业务应用层数据 2.30T),经过程序过滤、
解码、归并及业务特征规则识别后,获得用户数据业务行为记录 207G,数据压缩比为 8.15%。
2.1.1 已识别业务说明
目前已完成的业务识别主要有软件类的视频业务、音频业务、证券业务以及 IM 业务;
网站类的十大网站以及完成一级域名注释的业务信息,见下表:
业务属性 业务类别 业务产品描述
视频业务 万花筒、GGLive
音频业务 音乐随身听、GGMusic、POP 音乐、百灵鸟
证券业务 移动证券、同花顺、3G 财神通、大智慧、投资通
软件业务
IM 业务 飞信、QQ、MSN、PICA
十大网站
腾讯、易查、3G 门户、百度、动感论坛、空中网、乐迅、
新浪、移动梦网、友度
网站业务
一级域名注释业务 详见附录一
图表 2 已识别业务的说明
2.2 符号说明
视频业务:已识别的万花筒、GGLive 等视频业务的集合。
音频业务:已识别的音乐随身听、GGMusic、POP 音乐、百灵鸟等音频业务的集合。
IM 业务:已识别的飞信、QQ、MSN、PICA 等即时通信业务的集合。
证券业务:已识别的移动证券、同花顺、大智慧、3G 财神通、投资通等证券业务的集
合。
一级域名注释的业务:除十大网站、视频业务、音频业务、IM 业务和证券业务外,已经
完成一级域名的中文注释的业务集合。
十大网站:指排名前十位的“腾讯”、“易查”、“3G 门户”、“百度”、“动感论坛”、“空
中网”、“乐迅”、“新浪”、“移动梦网”、“友度”等十个网站的集合。
未识别的 IP 地址部分:未进行中文注释识别的 server 地址信息中的 IP 地址信息部分。
未识别的域名地址部分:未进行中文注释识别的 server 地址信息中的域名地址信息部分。