Geohash编码的k匿名位置隐私保护方案.docx资源-CSDN文库

版权申诉

79 浏览量 2023-02-23 20:51:01 上传评论收藏 365KB DOCX 举报

资源推荐

资源详情

资源评论

摘要

在入侵检测系统中互信息特征选择标准可快速选择重要特征，通常信息熵的计算偏差

会降低系统的分类性能。为了减少特征选择偏差的影响，提出卡方校正算法（chi-

square correction algorithm，CSCA）。首先，对所有候选特征进行离散化处理，

计算互信息特征选择相关标准的偏差；然后，将偏差项添加在特征选择目标函数中，

通过 CSCA 优化离散化水平和特征偏差；最后，在更新后的特征集中选择当前最重要

的特征子集，在分类模型中检测攻击。仿真结果表明，与 MIGM （ mutual

information gain maximize ）算法和 M-DFIFS （ M-dynamic feature

importance based feature selection）算法相比，卡方校正算法提高了入侵检测系

统的精度，同时降低了系统的误报率。

关键词

入侵检测; 特征选择; 互信息; 离散化; 卡方检验

0　引言

数据特征选择在大数据挖掘和分析及机器学习等领域都有广泛应用，尤其在入侵检测

系统（intrusion detection system，IDS）中，选择重要数据特征是识别网络攻击

准确性的关键因素

［ 1］

。为了给分类模型构建高效的特征选择（feature selection，

FS）算法，通常用基于互信息（mutual information，MI）的方法学习和估算高维

数据特征的重要性，该方法可以快速找到数据特征中的相关信息，选择出最大相关最

小冗余（maximum relevance minimum redundancy， mRMR）的特征子集

［ 2，

3］

。

Wang 等

［ 4］

结合数据特征的关联性，构建了互信息增益最大化（mutual information

gain maximize， MIGM）算法，通过等效分区概率对特征数据进行划分，并用最

大联合互信息准则对候选特征进行评估。该方法可以快速识别有效的特征子集，比传

统方法具有更好的适用性。 Wei 等

［ 5 ］

根据动态特征重要性（ dynamic feature

importance，DFI）指标，提出基于 MI 的动态特征重要性特征选择（M-dynamic

feature importance based feature selection，M-DFIFS）算法，使用最大信息

系数有效排除冗余特征，再通过随机森林的基尼系数选出重要特征，所选的特征数据

与类要素之间有更强的相关性。但是这些方法都没有考虑信息熵的偏差校正。

为了在入侵检测系统中减少信息熵偏差对分类性能的影响，构建实时可靠的 IDS，本

文提出了卡方校正算法（chi-square correction algorithm，CSCA）。首先对所有

候选特征进行离散化处理，根据特征的潜在概率分布估计特征选择相关标准的偏差；

然后，通过考虑偏差的目标函数得到特征选择的临界值；最后，通过 χ2 检验优化离散

化水平和特征偏差，更新特征子集。

1　入侵检测特征选择

1.1　入侵检测特征选择模型

选择重要相关的特征并及时做出数据更新对 IDS 防御攻击非常重要。特征选择的目的

就是在所有候选特征集 F 中选出最优特征子集 f={f1,f2,⋯,fs}，为分类模型提供在类之间

具有最大区分力的特征数据，并降低数据维度

［ 6］

。针对高维数据流中存在的特征变化，

基于 MI 的特征选择方法可减少无关特征和冗余特征对模型的影响。

为了简化特征数据，通常在特征选择之前把连续值的特征转换为离散特征。在图 1 入

侵检测模型中，将数据流中提取的特征和训练后的标准特征动态离散化为 n 个区间，

则离散化间隔为{[d0,d1],⋯,[dn−1,dn]}，特征 fi 的最小值为 d0，最大值为 dn，dis 是间隔

点。特征离散化可能存在信息丢失，但可以减少数据噪声，增加模型的稳定性和分类

准确性

［ 7］

。

图 1 入侵检测的特征选择模型

Fig.1 Feature selection model for intrusion detection

下载: 原图 | 高精图 | 低精图

数据特征离散化后，通过特征选择的标准为分类器选择最优特征子集，并将该特征子

集更新为下一次检测的候选特征。最后使用支持向量机（ support vector

machines，SVM）分类模型检测攻击，SVM 有效减少了数据维度的影响，有较高的

分类精度

［ 8］

。

为了独立于分类算法并降低计算成本，一般构建基于 MI 过滤的特征选择方法评估特

征。MI 方法能够测量随机变量之间的非线性依赖关系，评估复杂分类任务中数据特征

的信息内容

［ 9］

。两个变量的 MI 通常用熵表示，熵为信息不确定性的度量，计算形式

如下

I(X;Y)=H(X)+H(Y)−H(X,Y)I(X;Y)=H(X)+H(Y)-H(X,Y)

（1）

其中，H(X)和 H(Y)为边际熵；H(X,Y)为联合熵，为变量 X 和 Y 平均所需要的信息量。

若 X 是连续型随机变量，则 H(X)=−∫+∞−∞f(x)logf(x)dx，f（x）表示 X 的概率分布函数。

若用 N 个等长 Δx 分隔 X，则第 i 个间隔中观测样本的概率值 pi=∫f(x)dx≈f(xi)Δx，假设 f

（x）在一个区间内近似恒定，熵的近似值如下

Hˆ(X)=−∑i(niNlogniN)+log(Δx)=Ĥ(X)=-∑i(niNlogniN)+log(Δx)=

剩余10页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3645
资源: 1万+

Geohash编码的k匿名位置隐私保护方案.docx

一种面向移动终端的K匿名位置隐私保护方案.docx

论文研究-基于Geohash编码的位置隐私保护算法.pdf

基于区块链的分布式K匿名位置隐私保护方案.pdf

基于位置k-匿名的LBS隐私保护方法的研究

群智感知中基于k-匿名的位置及数据隐私保护方法研究

(完整word版)IT运维服务方案信息运维服务方案.docx

基于椭圆曲线的ElGamal型位置隐私保护方案.docx

基于公交车缓存的车联网位置隐私保护方案.docx

基于同态加密的DBSCAN聚类隐私保护方案.docx

基于博弈论与区块链融合的k-匿名位置隐私保护方案.pdf

基于服务相似性的k-匿名位置隐私保护方法

基于近似匹配的假位置k-匿名位置隐私保护方法

基于k-匿名的隐私保护计算卸载方法.docx

一种个性化的k-匿名位置隐私保护算法 (2012年)

基于差分隐私的轨迹隐私保护方案.docx

基于SpringCloud-微服务系统设计解决方案.docx.docx

中国大学生互联网+农业创新创业大赛方案.docx.docx

支持区间查询的基于位置服务外包数据隐私保护方案.docx

(完整版)医院信息安全等级保护建设方案.docx

随机匿名的位置隐私保护方法

融合边信息的双重匿名位置隐私保护方案.pdf

基于远程匿名认证的可信智能电表隐私保护方案

LBS隐私保护中基于查询范围的匿名区构造方案

动态P2P网络中基于匿名链的位置隐私保护 (2012年)

个人电脑资料安全隐私保护指南.docx

基于网络文件保险柜的终端数据安全保护解决方案.docx

基于差分隐私的连续位置隐私保护机制.docx

基于同态加密和区块链技术的车联网隐私保护方案.docx

工业互联网安全保护方案.docx

最新资源