基于流量特征分类的异常IP识别系统的设计与实现.docx资源-CSDN文库

版权申诉

160 浏览量 2022-06-17 17:08:16 上传评论收藏 457KB DOCX 举报

【基于流量特征分类的异常IP识别系统的设计与实现】随着互联网技术的快速发展，网络规模的扩大和数据流量的剧增，网络安全成为了国家安全的重要组成部分。5G时代的到来加剧了网络安全的挑战，恶意主机的数量逐年攀升，对网络环境构成严重威胁。异常流量检测作为一种有效的恶意主机发现手段，成为网络安全研究的重点。异常IP识别系统主要依赖于流量特征的分析。流量特征分为三个级别：IP地址级、报文级和网络流级。IP地址级特征关注特定IP地址的全部流量数据；报文级特征涉及负载内容和通讯端口号；网络流级特征则基于报文头部信息进行流量分类和识别。早期的研究如LAKHINA和LEE分别使用无监督学习和IP地址重要性评估进行异常检测，但这些方法在处理单台服务器流量时可能失效。因此，对单台服务器的流量进行对端IP识别和分类显得尤为重要，这有助于识别提供不同服务的IP，以及定位异常活动，如恶意木马和病毒流量。针对异常IP识别和标记流量数据成本高的问题，本文提出了一种结合K-means聚类和层次聚类的半监督学习方法。利用已标记样本的分类特性选取关键特征；然后，对样本的特征属性进行重新赋值，形成权重向量；接着，使用权重向量对未知样本进行重新赋值并进行层次聚类；通过已标记的IP样本完成对大量未标记样本的分类和识别。实验在UNSW-NB15数据集上验证了该方法的可行性和准确性，证明了它能有效识别恶意IP，包括未知类型的恶意IP。该方法已被应用于国家某网络安全中心的流量识别系统，成功发现了针对我国重点服务器的恶意攻击，并协助进行了早期的筛查和定位。此外，研究者们还提出了多种流量特征分析方法，如基于状态机的TCP流特征分析、朴素贝叶斯分类、深度学习中的时序分析等，这些方法为流量特征分类和异常检测提供了多样化的解决方案。异常IP识别系统的设计与实现是通过深入分析网络流量特征，结合机器学习和聚类算法，实现对异常行为的精确检测。半监督学习在此类问题中的应用，降低了对大量标记数据的依赖，提升了识别效率和精度。未来的研究将继续探索更高效、更智能的流量分析方法，以应对日益复杂的网络安全挑战。

资源推荐

资源详情

资源评论

0 引言

随着互联网和各种网络应用的迅速发展,网络的规模越来越大,传播的数据越

来越多,网络与信息安全逐渐影响到国家安全。随着 5G 时代的到来,网络安全问

题更加严重。据统计 2020 年上半年我国境内感染计算机恶意程序的主机数量约

304 万台,同比增长 25.7%。恶意主机广泛分布在世界的隐秘角落。对网络安全

研究者来说,找到网络上存在的恶意主机并及时地进行处置成为一个迫在眉睫的

任务。

异常流量检测是发现恶意主机的有效方式。目前 ,中外研究人员关于异常流

量检测的研究非常广泛。LAKHINA

[1]

等人在 2005 年首先使用无监督学习对流量

进行自动分类,他们对 Abilene 和 Geant 骨干网络流量数据进行分析,成功检测到

了网络中发生的异常,并且使用聚类分析发现了以往未被发现的异常。 LEE

[2]

等人

提出了一种评定 IP 地址重要程度的方法。但是文献[1]和文献[2]使用的都是网络

中流通的整体流量,单纯利用单台服务器上的流量数据时,其方法会失效。

在流经单台主机的流量上进行对端 IP 识别和分类具有实际应用意义。通过

对流经单台服务器的网络流量进行整理和分析 ,将所有对端 IP 进行分类,可以有

效识别提供不同服务的对端 IP,可以识别出与服务器发生通讯的异常 IP,定位恶

意木马、病毒产生的流量,提高企事业单位的安全防护和重点服务器的安全;利用

对端 IP 分类,对网络中出现的 IP 流量进行统计整理,可以为网络管理及安全响应

提供 IP 地址流量行为的背景信息。

在恶意 IP 和流量的研究方面,获取流量数据相对容易,但是识别并标记样本

的代价高昂,所以使用少量的标记数据来指导大量未标记数据进行半监督学习的

技术得到了广泛关注

[3]

。

针对上述提到的对端异常 IP 识别与分类和标记流量数据成本过高的问题 ,本

文把 K-means 聚类和层次聚类相关的算法应用到对端异常 IP 主机的识别与分类

技术中。利用已标记样本的分类特点,识别样本中对分类影响较大的特征;对样本

的各个特征属性进行重新赋值,以获取更合理的含有权重意义的特征,形成权重向

量;然后,利用权重向量对未知样本的特征属性重新赋值 ,并进行层次聚类;最后利

用已经标记的 IP 样本,实现了对大量未标记样本的分类和识别。

本文根据 UNSW-NB15 数据集进行异常 IP 识别测试,实验结果表明,本文方

法可以实现恶意 IP 分类,并且可以识别未知类型的恶意 IP,具有广泛的适用性和

健壮性。通过对特征向量中的特征属性重新赋权,提高了分类的精度;对提高包含

标签的聚类算法准确性具有参考意义。本文方案已被应用在国家某网络安全中

心的流量识别系统中,通过分析对端主机特征,发现了多次国外黑客组织对我国重

点服务器的恶意攻击,系统协助相关单位进行了前期的筛查和定位工作。

1 研究现状

研究显示,根据统计对象的不同,流量特征主要分为 3 级

[4]

：IP 地址级、报文

级、网络流级。

报文级流量的主要特征包含报文中的负载内容、通讯端口号等。MOORE

[5]

等人提出了一种对网络流量中的数据流进行建模,以此来识别网络中运行的服务

的方法。DPI（深度报文检测）利用流量中携带的报文负载对流量进行识别和分

类。

流级网络特征主要体现在报文头部信息,基于流级特征分类网络流量,主要分

为直接利用流级特征和基于流级特征进行数据挖掘两种方法。SUH

[6]

等人用状态

机的方式来对网络通讯过程进行表示,通过状态机来体现流级特征发生的不同变

化。LI

[7]

等人在汇总他人研究的基础上,提炼出 249 种 TCP 流特征,使用朴素贝叶

斯的分类方法尝试对网络流进行分类。

IP 地址级流量特征通过流经特定 IP 地址的所有流量数据来计算统计特征。

高骥翔

[8]

针对网络中存在的 NAT 网络,提出了一种使用 IP 地址级特征进行识别的

方法。柳斌

[9]

等人将类似的方法应用于 P2P 流识别,能够正确识别超过 95%的

P2P 流量。陈怡然

[10]

通过提取网络协议、上行网络流速、下行网络流速、端口

号等特征,运用有监督的机器学习算法将主机进行分类,取得了很好的效果。黄思

逸

[4]

将动物行为学模型引入 IP 地址流量行为模型,并对网络中所有的 IP 进行归纳、

分类和解读。薛丽慧

[11]

在 2019 年提出了基于随机森林的恶意 IP 分类算法。赵艺

宾

[12]

收集了大量 APT 组织中披露的恶意软件流量数据,通过对其中产生的流量特

征进行统计和分析,利用深度学习中时序分析的方法,实现了恶意软件流量的检测。

王勇

[13]

等人通过实验,提出了一种基于深度卷积神经网络的网络流量分类方法,在

网络流量分类中有较好效果。

在异常流量检测方面,获取流量数据容易,但标记数据代价高昂,所以使用少量

的标记数据来指导大量未标记数据进行半监督学习的技术得到了广泛关注

[3]

。半

监督学习是监督学习与无监督学习结合的一种学习方法,所使用的数据集中既包

含大量未标记数据,也包含一部分标记数据。聚类、分类和回归是 3 种主要的半

监督学习算法。半监督聚类同时利用标记数据和无标记数据 ,综合了有监督学习

和无监督学习的优势,改善了聚类的效果,这是基于机器学习的异常检测的一个重

要方向

[14]

。K-means 是一种半监督聚类技术,通过计算样本之间的距离将数据集

中的样本分类成若干个不相交的簇,使用标记样本对簇进行标记和分类。但 K-

means 算法容易陷入局部最优。为了解决局部最优的问题 ,GU

[15]

等人对 K-

means 算法进行了改进,提出了一种半监督加权 K-means 方法,通过基于密度的

初始聚类中心的选择,较好地解决了局部最优问题。

通过聚类算法,可以得到一些显著的离群点（离群点又称孤立点,其分布状况

与其他正常样本有很大差异）。通过提取流量数据中的特征,对其进行离群点检

测,可以发现不同于正常请求的恶意网络攻击。AHMAD

[16]

等人做过数据流离群点

检测的研究,但由于网络流量数据的标记成本高昂,获取大量标记的数据集较为困

难,因此在网络流量异常检测方面有监督的深度检测算法应用很少。无监督的检

测方法利用样本内部属性来识别离群点,然而分析出数据集中样本的内在属性难

度很大,导致检测效果不佳。利用类似深度自编码器

[17]

的半监督学习方法,可以达

到很好的检测效果。当有足够多的样本时,深度自编码器可以获得较高的准确率。

2 相关技术

本文提出的基于流量特征分类的异常 IP 识别方法使用了聚类算法和遗传算

法,其中,恶意 IP 检测使用 K-means 聚类算法,将已经标记的样本根据特征进行聚

类,并对各个簇进行识别;未知异常 IP 检测使用聚类算法识别未知类型的簇。此

外,不同特征对分类结果的影响不同,本文采用遗传算法找到合适的权重向量,以衡

量各个特征对于分类效果的影响。本节介绍使用到的聚类算法和遗传算法。

2.1 聚类算法

聚类是一种将数据集中的样本按照相似度划分成多个不相交的簇的过程 ,聚

类完成后,各个簇之间的数据样本相似度比较低,而每个簇内的数据样本有很高的

相似度。聚类方法在各个领域都有着广泛的应用,如模式识别、图像分析、数据

挖掘等。

本文中对对端 IP 的聚类方法主要用到的是基于划分的 K-means 聚类

[18]

和基

于层次的 AGNES 聚类

[19]

算法。

2.1.1 基于划分的 K-means 聚类

对于数据集 D 中包含 n 个样本数据,通过指定簇数 k,基于划分的聚类算法把

样本数据划分成为 k（k≤n）个不相交的簇。这些簇形成一组对整体数据样本的

分类描述,在同一个簇中的样本是“相似”的,而不同簇之中的样本是“不相似”的。

优化簇内变差是一个 NP-困难问题,可以使用贪心算法对该问题求局部最优

解。K-means 就是一种常用的贪心方法,简单且常用。首先随机选择 k 个样本数

据作为算法初始的聚类的簇中心;然后计算各个种子数据与各簇中心的距离,之后

将样本分配给距离最近的聚类中心对应的簇;将样本分配给簇中心后,会引起当前

簇的样本集合发生变化,因此需要对该簇的中心进行重新计算。不断重复这个过

程,直到满足预先设定的终止条件。

2.1.2 基于层次的聚类

层次聚类将样本构建成一棵具有层次嵌套的树,根据层次结构的构建方向不

同 , 层次聚类可以分为自顶向下的分裂层次聚类（ Divisive Hierarchical

Clustering ）和自底向上的凝聚层次聚类（ Agglomerative Hierarchical

Clustering）两种构建方式。凝聚的层次聚类方法使用自底向上的策略。开始时 ,

把每个样本作为一个簇,并且迭代地把相邻的簇合并成一个更大的簇,直到达到某

个预设的终止条件。在合并过程中,依据样本属性的相似度综合考虑,找到最近的

簇,并将它们合并成一个更大的簇。直到所有样本数据都合并到同一个簇中,或达

到预先设定的终止条件。

本文使用的 AGNES（AGglomerative NESting）算法就是一种凝聚层次聚

类算法。AGNES 算法将每个样本作为一个初始的聚类簇,在算法运行过程中,找

到距离最近的两个簇进行合并,不断重复这个过程,直至满足终止条件。

2.2 遗传算法

遗传算法是诸多进化算法中的一种。模拟了自然界中生物自然淘汰的进化

过程,学习不仅可以通过单个生物个体的适应来完成,还可以通过种群的进化来实

现,并将其运用到计算机模型之中

[20]

。具体流程如图 1 所示。

剩余13页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 4494
资源: 1万+

基于流量特征分类的异常IP识别系统的设计与实现.docx

基于JavaWeb的推荐数据后台管理系统的设计与实现.docx

毕业设计基于JavaWeb技术的在线考试系统设计与实现.docx

基于SSM+mysql图书管理系统设计与实现.docx

基于Java宠物医院管理系统设计与实现 .docx

基于微信小程序的兼职平台系统设计与实现.docx

[基于JAVA的医院门诊信息管理系统设计与实现.docx

基于FPGA的语音识别拨号系统的设计与实现.docx

基于STM32的嵌入式语音识别模块设计和实现.docx

基于ssm+mysql校园二手交易系统设计与实现.docx

基于ssm+mysql社会保险管理系统设计与实现.docx

基于ssm+mysql停车场管理系统设计与实现.docx

基于ssm+mysql线上会议管理系统设计与实现.docx

基于ssm+mysql课程实验教学系统设计与实现.docx

基于ssm+mysql软件缺陷管理系统设计与实现.docx

基于ssm+mysql矿场仓储管理系统设计与实现.docx

基于ssm+mysql图书仓储管理系统设计与实现.docx

基于vue_cli3 node.js的英语题库系统设计与实现.docx

基于python+django宾馆管理系统设计与实现.docx

基于微信小程序的考勤系统设计与实现.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

stm32f1单片机上用FFT测量信号频率（高精度、过程详细）FFT

matlab批量读取excel表格数据并处理画图

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

OpenCv车辆识别训练模型

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

数学建模对乙醇偶合制备C4烯烃的问题研究

STM32F103C8T6中文数据手册

（头歌）计算机组成原理存储系统设计（HUST）1-7关答案

最新资源