没有合适的资源?快使用搜索试试~ 我知道了~
Geohash编码的k匿名位置隐私保护方案.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 79 浏览量
2023-02-23
20:51:01
上传
评论
收藏 365KB DOCX 举报
温馨提示
试读
11页
Geohash编码的k匿名位置隐私保护方案.docx
资源推荐
资源详情
资源评论
摘要
在入侵检测系统中互信息特征选择标准可快速选择重要特征,通常信息熵的计算偏差
会降低系统的分类性能。为了减少特征选择偏差的影响,提出卡方校正算法(chi-
square correction algorithm,CSCA)。首先,对所有候选特征进行离散化处理,
计算互信息特征选择相关标准的偏差;然后,将偏差项添加在特征选择目标函数中,
通过 CSCA 优化离散化水平和特征偏差;最后,在更新后的特征集中选择当前最重要
的 特 征 子 集 , 在 分 类 模 型 中 检 测 攻 击 。 仿 真 结 果 表 明 , 与 MIGM ( mutual
information gain maximize ) 算 法 和 M-DFIFS ( M-dynamic feature
importance based feature selection)算法相比,卡方校正算法提高了入侵检测系
统的精度,同时降低了系统的误报率。
关键词
入侵检测; 特征选择; 互信息; 离散化; 卡方检验
0 引 言
数据特征选择在大数据挖掘和分析及机器学习等领域都有广泛应用,尤其在入侵检测
系统(intrusion detection system,IDS)中,选择重要数据特征是识别网络攻击
准确性的关键因素
[ 1]
。为了给分类模型构建高效的特征选择(feature selection,
FS)算法,通常用基于互信息(mutual information,MI)的方法学习和估算高维
数据特征的重要性,该方法可以快速找到数据特征中的相关信息,选择出最大相关最
小冗余(maximum relevance minimum redundancy, mRMR)的特征子集
[ 2,
3]
。
Wang 等
[ 4]
结合数据特征的关联性,构建了互信息增益最大化(mutual information
gain maximize, MIGM)算法,通过等效分区概率对特征数据进行划分,并用最
大联合互信息准则对候选特征进行评估。该方法可以快速识别有效的特征子集,比传
统 方 法 具 有 更 好 的 适 用 性 。 Wei 等
[ 5 ]
根 据 动 态 特 征 重 要 性 ( dynamic feature
importance,DFI)指标,提出基于 MI 的动态特征重要性特征选择(M-dynamic
feature importance based feature selection,M-DFIFS)算法 ,使用 最大信 息
系数有效排除冗余特征,再通过随机森林的基尼系数选出重要特征,所选的特征数据
与类要素之间有更强的相关性。但是这些方法都没有考虑信息熵的偏差校正。
为了在入侵检测系统中减少信息熵偏差对分类性能的影响,构建实时可靠的 IDS,本
文提出了卡方校正算法(chi-square correction algorithm,CSCA)。首先对所有
候选特征进行离散化处理,根据特征的潜在概率分布估计特征选择相关标准的偏差;
然后,通过考虑偏差的目标函数得到特征选择的临界值;最后,通过 χ2 检验优化离散
化水平和特征偏差,更新特征子集。
1 入侵检测特征选择
1.1 入侵检测特征选择模型
选择重要相关的特征并及时做出数据更新对 IDS 防御攻击非常重要。特征选择的目的
就是在所有候选特征集 F 中选出最优特征子集 f={f1,f2,⋯,fs},为分类模型提供在类之间
具有最大区分力的特征数据,并降低数据维度
[ 6]
。针对高维数据流中存在的特征变化,
基于 MI 的特征选择方法可减少无关特征和冗余特征对模型的影响。
为了简化特征数据,通常在特征选择之前把连续值的特征转换为离散特征。在图 1 入
侵检测模型中,将数据流中提取的特征和训练后的标准特征动态离散化为 n 个区间,
则离散化间隔为{[d0,d1],⋯,[dn−1,dn]},特征 fi 的最小值为 d0,最大值为 dn,dis 是间隔
点。特征离散化可能存在信息丢失,但可以减少数据噪声,增加模型的稳定性和分类
准确性
[ 7]
。
图 1 入侵检测的特征选择模型
Fig.1 Feature selection model for intrusion detection
下载: 原图 | 高精图 | 低精图
数据特征离散化后,通过特征选择的标准为分类器选择最优特征子集,并将该特征子
集 更 新 为 下 一 次 检 测 的 候 选 特 征 。 最 后 使 用 支 持 向 量 机 ( support vector
machines,SVM)分类模型检测攻击,SVM 有效减少了数据维度的影响,有较高的
分类精度
[ 8]
。
为了独立于分类算法并降低计算成本,一般构建基于 MI 过滤的特征选择方法评估特
征。MI 方法能够测量随机变量之间的非线性依赖关系,评估复杂分类任务中数据特征
的信息内容
[ 9]
。两个变量的 MI 通常用熵表示,熵为信息不确定性的度量,计算形式
如下
I(X;Y)=H(X)+H(Y)−H(X,Y)I(X;Y)=H(X)+H(Y)-H(X,Y)
(1)
其中,H(X)和 H(Y)为边际熵;H(X,Y)为联合熵,为变量 X 和 Y 平均所需要的信息量。
若 X 是连续型随机变量,则 H(X)=−∫+∞−∞f(x)logf(x)dx,f(x)表示 X 的概率分布函数。
若用 N 个等长 Δx 分隔 X,则第 i 个间隔中观测样本的概率值 pi=∫f(x)dx≈f(xi)Δx,假设 f
(x)在一个区间内近似恒定,熵的近似值如下
Hˆ(X)=−∑i(niNlogniN)+log(Δx)=Ĥ(X)=-∑i(niNlogniN)+log(Δx)=
−1ln2∑i(niNlnniN)+log(Δx)-1ln2∑i(niNlnniN)+log(Δx)
(2)
其中,N 表示总的样本数,ni 为第 i 个间隔的观测样本,i∈(0,N)且 niN=pi。
1.2 特征选择标准
假设一组数据集中有 K 个特征数据和 M 个数据类别,用互信息 I(f;C)表示特征数据中
包含的关于目标类别 C 的信息量,从最大化下式
I(f;C)=∑f1,⋯,fs∑CP(f1,⋯,fs;C)logP(f1,⋯,fs;C)P(f1,⋯,fs)P(C)I(f;C)=∑f1,⋯,fs∑CP(f1,⋯,fs;C)logP(
f1,⋯,fs;C)P(f1,⋯,fs)P(C)
(3)
可以得到特征子集 f 的最小集合。
为了减少 I(f;C)的计算成本,通过联合互信息(joint mutual information,JMI)方
法
[ 10]
选择第 i 个特征 fi 的模型如下式
J(fi)=R+1|f|∑fk∈f(CI−r)J(fi)=R+1f∑fk∈f(CI-r)
(4)
其中,|f|为所选特征子集 f 的特征数,R=I(fi;C)表示 fi 和 C 之间的相关性;r=I(fi;fk)表示
数据特征 fi 和 fk 之间的冗余;CI=I(fi;fk|C)表示在给定的类别 C 下 fi 和 fk 之间的互补信
息
[ 11]
。
通过最大化(4)式得到特征选择标准的最优值,即最大特征的相关性 R、最小的特征
冗余 r 和最大特征的互补信息 CI,根据这三个标准可以选择当前最重要的特征。用潜
在的概率分布估计特征熵时会引入偏差,假设样本 ni 是多项式独立分布的,根据概率
函数在 niN 处的泰勒级数,样本期望为
E{Hˆ(X)}=E{Ĥ(X)}=
1ln2∑i(−n¯iNlnn¯iN−(1N+1Nlnn¯iN)⋅1ln2∑i(-n¯iNlnn¯iN-(1N+1Nlnn¯iN)⋅
E{(ni−n¯i)}−E{(ni−n¯i)2}2Nn¯i+E{(ni-n¯i)}-E{(ni-n¯i)2}2Nn¯i+
E{R3i(ni)})+log(Δx)E{Ri3(ni)})+log(Δx)
(5)
取 niN=n¯iN,(5)式第二项为 0。第三项简化为
1ln2∑iE{(ni−n¯i)2}2Nn¯i=12Nln2(N−1)1ln2∑iE{(ni-n¯i)2}2Nn¯i=12Nln2(𝒩-1)
(6)
N 是变量 X 中的离散间隔数,观测样本的期望和方差如(7)式
E{ni}=n¯i=Npi;D{ni}=Npi(1−pi)E{ni}=n¯i=Npi;D{ni}=Npi(1-pi)
(7)
(8)式表示忽略高阶项的 E{Hˆ(X)}。
剩余10页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3645
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功