没有合适的资源?快使用搜索试试~ 我知道了~
基于流量特征分类的异常IP识别系统的设计与实现.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 188 浏览量
2022-06-17
17:08:16
上传
评论
收藏 457KB DOCX 举报
温馨提示
试读
14页
基于流量特征分类的异常IP识别系统的设计与实现.docx
资源推荐
资源详情
资源评论
0 引言
随着互联网和各种网络应用的迅速发展,网络的规模越来越大,传播的数据越
来越多,网络与信息安全逐渐影响到国家安全。随着 5G 时代的到来,网络安全问
题更加严重。据统计 2020 年上半年我国境内感染计算机恶意程序的主机数量约
304 万台,同比增长 25.7%。恶意主机广泛分布在世界的隐秘角落。对网络安全
研究者来说,找到网络上存在的恶意主机并及时地进行处置成为一个迫在眉睫的
任务。
异常流量检测是发现恶意主机的有效方式。目前 ,中外研究人员关于异常流
量检测的研究非常广泛。LAKHINA
[1]
等人在 2005 年首先使用无监督学习对流量
进行自动分类,他们对 Abilene 和 Geant 骨干网络流量数据进行分析,成功检测到
了网络中发生的异常,并且使用聚类分析发现了以往未被发现的异常。 LEE
[2]
等人
提出了一种评定 IP 地址重要程度的方法。但是文献[1]和文献[2]使用的都是网络
中流通的整体流量,单纯利用单台服务器上的流量数据时,其方法会失效。
在流经单台主机的流量上进行对端 IP 识别和分类具有实际应用意义。通过
对流经单台服务器的网络流量进行整理和分析 ,将所有对端 IP 进行分类,可以有
效识别提供不同服务的对端 IP,可以识别出与服务器发生通讯的异常 IP,定位恶
意木马、病毒产生的流量,提高企事业单位的安全防护和重点服务器的安全;利用
对端 IP 分类,对网络中出现的 IP 流量进行统计整理,可以为网络管理及安全响应
提供 IP 地址流量行为的背景信息。
在恶意 IP 和流量的研究方面,获取流量数据相对容易,但是识别并标记样本
的代价高昂,所以使用少量的标记数据来指导大量未标记数据进行半监督学习的
技术得到了广泛关注
[3]
。
针对上述提到的对端异常 IP 识别与分类和标记流量数据成本过高的问题 ,本
文把 K-means 聚类和层次聚类相关的算法应用到对端异常 IP 主机的识别与分类
技术中。利用已标记样本的分类特点,识别样本中对分类影响较大的特征;对样本
的各个特征属性进行重新赋值,以获取更合理的含有权重意义的特征,形成权重向
量;然后,利用权重向量对未知样本的特征属性重新赋值 ,并进行层次聚类;最后利
用已经标记的 IP 样本,实现了对大量未标记样本的分类和识别。
本文根据 UNSW-NB15 数据集进行异常 IP 识别测试,实验结果表明,本文方
法可以实现恶意 IP 分类,并且可以识别未知类型的恶意 IP,具有广泛的适用性和
健壮性。通过对特征向量中的特征属性重新赋权,提高了分类的精度;对提高包含
标签的聚类算法准确性具有参考意义。本文方案已被应用在国家某网络安全中
心的流量识别系统中,通过分析对端主机特征,发现了多次国外黑客组织对我国重
点服务器的恶意攻击,系统协助相关单位进行了前期的筛查和定位工作。
1 研究现状
研究显示,根据统计对象的不同,流量特征主要分为 3 级
[4]
:IP 地址级、报文
级、网络流级。
报文级流量的主要特征包含报文中的负载内容、通讯端口号等。MOORE
[5]
等人提出了一种对网络流量中的数据流进行建模,以此来识别网络中运行的服务
的方法。DPI(深度报文检测)利用流量中携带的报文负载对流量进行识别和分
类。
流级网络特征主要体现在报文头部信息,基于流级特征分类网络流量,主要分
为直接利用流级特征和基于流级特征进行数据挖掘两种方法。SUH
[6]
等人用状态
机的方式来对网络通讯过程进行表示,通过状态机来体现流级特征发生的不同变
化。LI
[7]
等人在汇总他人研究的基础上,提炼出 249 种 TCP 流特征,使用朴素贝叶
斯的分类方法尝试对网络流进行分类。
IP 地址级流量特征通过流经特定 IP 地址的所有流量数据来计算统计特征。
高骥翔
[8]
针对网络中存在的 NAT 网络,提出了一种使用 IP 地址级特征进行识别的
方法。柳斌
[9]
等人将类似的方法应用于 P2P 流识别,能够正确识别超过 95%的
P2P 流量。陈怡然
[10]
通过提取网络协议、上行网络流速、下行网络流速、端口
号等特征,运用有监督的机器学习算法将主机进行分类,取得了很好的效果。黄思
逸
[4]
将动物行为学模型引入 IP 地址流量行为模型,并对网络中所有的 IP 进行归纳、
分类和解读。薛丽慧
[11]
在 2019 年提出了基于随机森林的恶意 IP 分类算法。赵艺
宾
[12]
收集了大量 APT 组织中披露的恶意软件流量数据,通过对其中产生的流量特
征进行统计和分析,利用深度学习中时序分析的方法,实现了恶意软件流量的检测。
王勇
[13]
等人通过实验,提出了一种基于深度卷积神经网络的网络流量分类方法,在
网络流量分类中有较好效果。
在异常流量检测方面,获取流量数据容易,但标记数据代价高昂,所以使用少量
的标记数据来指导大量未标记数据进行半监督学习的技术得到了广泛关注
[3]
。半
监督学习是监督学习与无监督学习结合的一种学习方法,所使用的数据集中既包
含大量未标记数据,也包含一部分标记数据。聚类、分类和回归是 3 种主要的半
监督学习算法。半监督聚类同时利用标记数据和无标记数据 ,综合了有监督学习
和无监督学习的优势,改善了聚类的效果,这是基于机器学习的异常检测的一个重
要方向
[14]
。K-means 是一种半监督聚类技术,通过计算样本之间的距离将数据集
中的样本分类成若干个不相交的簇,使用标记样本对簇进行标记和分类。但 K-
means 算 法 容 易 陷 入 局部 最 优。 为 了 解 决 局 部 最 优 的 问 题 ,GU
[15]
等 人 对 K-
means 算法进行了改进,提出了一种半监督加权 K-means 方法,通过基于密度的
初始聚类中心的选择,较好地解决了局部最优问题。
通过聚类算法,可以得到一些显著的离群点(离群点又称孤立点,其分布状况
与其他正常样本有很大差异)。通过提取流量数据中的特征,对其进行离群点检
测,可以发现不同于正常请求的恶意网络攻击。AHMAD
[16]
等人做过数据流离群点
检测的研究,但由于网络流量数据的标记成本高昂,获取大量标记的数据集较为困
难,因此在网络流量异常检测方面有监督的深度检测算法应用很少。无监督的检
测方法利用样本内部属性来识别离群点,然而分析出数据集中样本的内在属性难
度很大,导致检测效果不佳。利用类似深度自编码器
[17]
的半监督学习方法,可以达
到很好的检测效果。当有足够多的样本时,深度自编码器可以获得较高的准确率。
2 相关技术
本文提出的基于流量特征分类的异常 IP 识别方法使用了聚类算法和遗传算
法,其中,恶意 IP 检测使用 K-means 聚类算法,将已经标记的样本根据特征进行聚
类,并对各个簇进行识别;未知异常 IP 检测使用聚类算法识别未知类型的簇。此
外,不同特征对分类结果的影响不同,本文采用遗传算法找到合适的权重向量,以衡
量各个特征对于分类效果的影响。本节介绍使用到的聚类算法和遗传算法。
2.1 聚类算法
聚类是一种将数据集中的样本按照相似度划分成多个不相交的簇的过程 ,聚
类完成后,各个簇之间的数据样本相似度比较低,而每个簇内的数据样本有很高的
相似度。聚类方法在各个领域都有着广泛的应用,如模式识别、图像分析、数据
挖掘等。
本文中对对端 IP 的聚类方法主要用到的是基于划分的 K-means 聚类
[18]
和基
于层次的 AGNES 聚类
[19]
算法。
2.1.1 基于划分的 K-means 聚类
对于数据集 D 中包含 n 个样本数据,通过指定簇数 k,基于划分的聚类算法把
样本数据划分成为 k(k≤n)个不相交的簇。这些簇形成一组对整体数据样本的
分类描述,在同一个簇中的样本是“相似”的,而不同簇之中的样本是“不相似”的。
优化簇内变差是一个 NP-困难问题,可以使用贪心算法对该问题求局部最优
解。K-means 就是一种常用的贪心方法,简单且常用。首先随机选择 k 个样本数
据作为算法初始的聚类的簇中心;然后计算各个种子数据与各簇中心的距离,之后
将样本分配给距离最近的聚类中心对应的簇;将样本分配给簇中心后,会引起当前
簇的样本集合发生变化,因此需要对该簇的中心进行重新计算。不断重复这个过
程,直到满足预先设定的终止条件。
2.1.2 基于层次的聚类
层次聚类将样本构建成一棵具有层次嵌套的树,根据层次结构的构建方向不
同 , 层 次 聚 类 可 以 分 为 自 顶 向 下 的 分 裂 层 次 聚 类 ( Divisive Hierarchical
Clustering ) 和 自 底 向 上 的 凝 聚 层 次 聚 类 ( Agglomerative Hierarchical
Clustering)两种构建方式。凝聚的层次聚类方法使用自底向上的策略。开始时 ,
把每个样本作为一个簇,并且迭代地把相邻的簇合并成一个更大的簇,直到达到某
个预设的终止条件。在合并过程中,依据样本属性的相似度综合考虑,找到最近的
簇,并将它们合并成一个更大的簇。直到所有样本数据都合并到同一个簇中,或达
到预先设定的终止条件。
本文使用的 AGNES(AGglomerative NESting)算法就是一种凝聚层次聚
类算法。AGNES 算法将每个样本作为一个初始的聚类簇,在算法运行过程中,找
到距离最近的两个簇进行合并,不断重复这个过程,直至满足终止条件。
2.2 遗传算法
遗传算法是诸多进化算法中的一种。模拟了自然界中生物自然淘汰的进化
过程,学习不仅可以通过单个生物个体的适应来完成,还可以通过种群的进化来实
现,并将其运用到计算机模型之中
[20]
。具体流程如图 1 所示。
剩余13页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3906
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功