论文研究-入侵检测中支持向量机参数选择方法研究 .pdf

所需积分/C币:10 2019-08-14 16:33:49 314KB .PDF
收藏 收藏
举报

入侵检测中支持向量机参数选择方法研究,康松林,周玖玖,针对支持向量机入侵检测系统的参数选择问题,研究了支持向量机入侵检测分类器的构造方法及参数变化对支持向量机性能的影响,提出
国武技论文在线 http:/www.paper.edu.cn 入侵检测分类器模型及参数的选择方法 入侵检测器构造方法 入侵检测器设计准则 构造入侵检测分类器不仅需要分类精度较高、检测速度较快,而且需要具有较强地识别 未来攻击的能力,也就是说一个性能优良的入侵检测分类器同时要求具备较小的分类错误样 70本数(即经验风险值小)和较强的预测未来数据的能力(即推广能力强) 个支持向量机入侵检测分类器的设计包括以下内容:检测模型的选择和模型参数的选 择。检测模型的选择是指选择SM的核函数,模型参数旳选择是指在确定模型后,估计SVM 的参数,确定分类函数,以保证SⅥM分类模型只有好的推广能力和的小的经验风险值。本 文主要研究文持向量机模型参数的选择。 其中,经验风险最小是指分类错误的样本数最小,因而经验风险值可以通过分类误差 Er来进行界定,有: 错分样木数 ×100% 总训练样本数 推广’能力由实际测试错误率米进行界定。LOO是一种通用的估计学习方法推广能 力的方法,它对学习算法没有仁何特定要求,因而可适用于所有学习算法。而且其估计性能 80非常好,留一法对实际错误率的估计是无偏估计,在使用它进行测试错误率估计时,有: 式中,表小去除第i个训练样本后在其它样本集上得到的分类规则,()表小使 用以上分类规则对被去除的第个训练样本进行分类,(())为对第个训练样本 的留一法分类结果,若分类正确(())为1,反之(())为0 支持向量率推广能力估计 在实际应用过程中,L○○π以用作标准来评估别的推广能力估计方法的性能。棖据SVⅥ 和LOO的原理,因为构造分类面时没有用到非支持向量,所以非支持向量进行LOO测试 吋将不会产生沨试错误,所以如果去掉这些非支持向量样本进行LOO训练分类面也不会改 变,将不会产生错分。只有当去掉的是支持向量样本吋才可能山现LOO分类错误。因此, 90实际测试错误率不会人于支持向量数与样本数之比——支持向量率SⅤR( Support Vector rate),即支持向量率SⅤR是测试错误率的期望的上界。因而推广能力可以由 以下式计算 同时用上式计算推广能力吋,计算简单,训练好支持向量机后,马上就可以得到 95推广¨能力的估计值。当然使用支持向量率估计推广能力也会带米误差,但是选择参数的重点 不是推广能力的具体数值而是其随参数的变化趋势。因而从变化趋势与运算量上来说,支持 向量率适合作为选择支持向量机参数的推广能力的方法。因此这里选择支持向量机参数时使 国武技论文在线 http:/www.paper.edu.cn 用支持向量率来估计推广能力 最优参数选择方法 100 支持向量机最优参数区间选择方法 在特定的数据样本空间中,支持向量机入侵检测模型的核参数与惩罚因子的变化均存在 某些特定的规律。例如惩罚因子C的作用是实训练误差与模型复杂度之间的折中。惩罚 因子取值小指对经验误差的惩罚小,分类错误的样木比例较高,经验风险取值大,支持向量 数目大;惩罚因了取值增大指对经验误差的惩罚增大,分类错误的样本比例降低,经验风险 105的取值减小,支持向量数目将减少,SM分类器的复杂度增加。当惩罚因子C增加到一定 值以后,支持向量机分类器模型的复杂度将达到数据空间允许的最大值,这时继续増加惩罚 因子对SVM分类器性能影响将很小。因此,先使用测试方法得到支持向量机参数的变化规 律〕选取最优支持向量机参数取值区间,然后在选定区间中寻找最优的支持向量机参数。 支持向量机参数取值区间选择方法是人步长地选择参数的变化区间,在训练数椐集上训 110练支持向量杋模型,选择支持向量机分类误差较小且支持向量数目较少的SⅥM参数,以初 步得到能使支持向量机分类器只备良好学习能力和推广能力的惩罚因」与核参数的取值区 。 试探法选择支持向量机最优参数 考虑怎罚因子C对推广能力的影响,C并没有出现在优化问题的对偶式中,而只是控 115制 Lagrange乘子的取值范围,当=时,对应的支持向量被称为边昪支持向量。因此, 对于支持向量机,如果无限制地增加C,当支持向量机中不存在边芥支持向量时,改变恁罚 因子对支持向量机分类性能儿乎没有影响,核参数将成为影响文持向量机性能的主要因素, 这与后面的试验是·致的。因此,在最优参数取值空间中,对惩罚因子和核参数可以使用不 同的调整方法,对主要影响因素核函数使用SⅤR作主要考虑,对次要影响因素惩罚因子, 120使边界支持向量率( bound support vector rate,BSⅤR,表示边界支持冋向量数与支持向量数之 比〕进行调整,只要求SM模型满足稳定性条件且SV数目变化不大即可。 因此,支持向量机最优参数选择方法可以搆述为在所求得的SVM最优参数取值空间上 通过实验数据分析惩罚因子和核参数对支持向量机分类模型的不同影响,对惩罚因子和核参 数区别对待。在最优参数取佰空间上主要考虑对结果影响较大的核参数的调整,而对结果影 125响不大的惩罚因子则放松调整条件,选择出使支持向量机性能最好的一组参数。因而如果不 考虑惩罚因」C的影响,采用试探法选择核参数是完全可行的。根据惩罚因子C、核参数 以及支持向量率的关系,得到试探法选择SVM参数的方法如下: (1)根据前面确定的参数取值空间,初始化惩罚因子C、核参数、参数变化方向及步 长、边界攴持向量率阈值与攴持向量率阈值: 130 (2)训练支持向量机,计算支持向量率和边界支持向量率,转到第3步,若为首次训 练,按参数初始变化方向更新参数,重新训练支持向量机并计算SVR和BSVR后转到第3 步 (3)若支持向量率小于阈值,日满足稳定性条件(即至少有一个非边界SV),转到第 7步 135 (4)若支持冋量率减小,按照原变化趋势继续史新核参数,否则改变变化趋势;若不 同方向上支持向量率都增加,则减小步长按当前变化趋势史新核参数; 4 国武技论文在线 http:/www.paper.edu.cn (5)若边界支持向量率增大或者较大,则增加惩罚因了;相反芢边界支持向量率减小 或者较小,则保持惩罚因子不变;若边界支持向量率为0则减小惩罚因子 (6)转到第2步; 140 (7)此时得到的C和σ将是较优的一组支持向量机参数,结束运算 训练方法可措述如下如下。模型选择釆用测试法训练多种模型,用来定量界定入 侵检测模型的推广能力,当的值接近时结合考虑Fr以实现模型选择。参数佔计采用 递进式的佔计方法,用Fπr进一步界定模型经验凤险值,并结合考虑此模型下不同参数情况 卜的,实现支持向量机最优参数区间的快速寻找;在选定最优参数的取值区间后,分 145析参数对支持向量杋性能的影响,并在支持向量杋最优参数取值区间内寻找最优支持向量机 参数。 实验与结果 本文实验使用的是目前入侵检测领域比较权威的数据集 KDD Cup997。随机抽取KDD Cup99的“10%KDD”数据集中两个了数据集,其中训练数据集包含13112条记录,测试数 150据集包含11432条记录。用本文提出的递推式支持向量机参数选择方法寻找最优模型参数。 同时,为了验证递推式参数选择方法的有效性,将实验结果与使用交叉验证法的结果进行比 较 核参数σ取值区间选择 取C=1,在径向基核函数下,按一定步长调节核参数σ来训练支持冋量机模型,得到 155的支持向量机分类性能结果如表1所小。在0.5<σ<4区间内,支持向量机分类器分类误 差Er较小,支持向量数日Nsv较少,也就是说在此区问内支持向量机分类器具有较好的学 习和推广性能。所以初步确定σ的取值区间为0.5<σ<4。 表1σ取不同值时SⅥM性能 160 Tab. 1 Performance of svm with different o err( %o 2 2 5.23 2 4.15 327 2 234 2 214 230 4.23 313 2 425 惩罚因子取值区间估计 根据上一步确定的核参数的取值区间,取σ=2,按一定变化步长调节愆罚因子C来 训练支持向量机模型,得到的支持向量机分类性能结果如表2所示。在1<<8区间内, 165支持向量机分类器分类误差Fr较小,支持向量数目Nsy较少,也就是说在此区间内支持向 量机分类器具有较好的学习和摊广性能。所以初步确定C的取值区间为1<<8。 国武技论文在线 http:/www.paper.edu.cn 表2C取不同值时SVM性能 Tab 2 Performance of SVm with different C 5.76 726 222 3.89 402 2 3.12 285 2 217 2.42 2222 194 2.46 189 170 最优参数选择 根据上面的实验结果,σ的取值空间为[054],C的取值空间为[,8],在此取值空间 中使用试探法寻找最佳参薮。首先限定步长的变化率为1.5,即若要增加步长则增加1.5倍 若要减小步长则减小1.5倍。找到一个极小点后,下一点取与其相邻点的中间值。参数选择 175过程如表3所小,在径向基核函数下寻找到最优参数值为=6,σ=1.25,支持向量机分 类模型r为2.08%,且Nsv较小,SVM模型推广能力好 表3参数选择过程 Tab3 Proccss of parameter sclcction I8 4 2.5 34 0.8889 4 221 31 1.1111 4 2.32 213 2 12222 4 205 6 193 1.2361 支持向量机分类模型检测性能分析 为了检验本文所提岀旳参数选择方法构建的支持向量机分类模型的检测性能,使用前面 寻找的最优参数=6,σ=1.25建立支持向量机分类模型,对测试数据集进行测试,并将 测试结果与使用交叉验证法获得的支持向量机训练模型的结果进行比较如衣4所示。从结果 l85看出,本文建立的攴持向量机入侵检测模型在保证检测性能与父叉验证法相当的情况下,大 大缩短了模型建立的时间 表4本文方法与SVMV结果比较 Tab. 4 The result comparison of the proposed method and svM-Cv 两种方法 检测精度%训练时间(min)测试时间(min) SVM-C\ 9.6 98.96 118 本文方法 125 98.87 5 190 结束语 针对入侵检测中支持问量机参数选择问题,本文提出一种支持向量机参数快速选择方 国武技论文在线 http:/www.paper.edu.cn 法,首先使用测试法寻找SⅥM参数变化规律并初步选定最优参数取值区冋,然后在最优区 间中考虑两个参数的不同影响米确定参数取值。通过对 KDD Cup99数据集进行仿真实验及 195与交叉验证法选择支持向量机参数方法进行比较,验证了本文方法的有效性。 参考文献 [1]Vapnik V. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1999 [2]陈光莫,张千甲.基于SVM分类机的入侵检测系统[J通信学报,2003,23(5);51-56 200[3]林杨,刘贵.基于改进SVM方法的入侵检测门计算机工稈,2007,33(14):151-153 [4] Mukkamala S, Janowski G. Identifying important fcaturcs for intrusion dctection using support vcctor machines and neural networks[A]. Proceedings of Applications and the Internet[C]. 2003, 14(4) 「5]张雪芹,顾春华.异常检测中文持冋量杋最优模型选择方法∏J.电子科技大学学报,2011,40(4) 559-563 205[6]董春曦支持向量札参数选择方法究叮系统工程与电子技术,204,26(8):1117-1120 [7] Indcx of/databascs/kddcup99[ol].[2009]. Http: //kdd. ics. uci. cdu/databascs/kddcup99

...展开详情
试读 7P 论文研究-入侵检测中支持向量机参数选择方法研究 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-入侵检测中支持向量机参数选择方法研究 .pdf 10积分/C币 立即下载
    1/7
    论文研究-入侵检测中支持向量机参数选择方法研究 .pdf第1页
    论文研究-入侵检测中支持向量机参数选择方法研究 .pdf第2页
    论文研究-入侵检测中支持向量机参数选择方法研究 .pdf第3页

    试读已结束,剩余4页未读...

    10积分/C币 立即下载 >