论文研究-一种处理密度分布不均匀数据集的粒度SVM算法 .pdf

所需积分/C币:11 2019-08-24 355KB .pdf
评分

一种处理密度分布不均匀数据集的粒度SVM算法,程凤伟,王文剑,粒度支持向量机( Granular Support Vector Machine,GSVM) 是以粒度计算理论和统计学习理论为基础的一种新的机器学习模型,它可以有效地克服传统�
山国科技论文在线 E A H 图密度不均匀的数据集 层次粒度支持向量机模型 算法思想 传统的粒度支持向量机在处理密度分布不均匀的数据集时会出现这样一个问题,对于密 度大的区域会丢失一些重要的分类信息,而对于密度小的区域又会出现选取的分类信息冗 余 的主要思想是选择重要的分类信息使训练超平面达到最优,它根据样木点的分 布密度,抽取含有重要分类信息的样木,对于密度大的区域抽取的样木相对较多,对于密度 小的区域,抽取的样木相对较少,这样,保留一些对分类影响比较大的样木,去掉部分对分 类影响比较小的样夲,不仪提高了的训练正确率,而且减少了训练的时间 本文通过层次粒划分的方法对密度不均匀的数据集进行重要样本的提取。首先,根据数 据集的大小,用户给定一个初始粒划参数,对数据集进行初次粒划分;其次,取每个粒的 粒中心进行训练,得到一个分类超平面,综合考虑粒密度和粒半径两个因素,计算出 那些靠近边界目粒嫆度较人的粒,对这些粒进行再次的粒划分(再次粒划分参数也称动态粒 化因子,它由粒密度和粒半径共同决定),得到一组新的粒,取新粒中含有重要分类信息的 样本,加入训练集,进行训练。重复此过程,直到满足停止条件。 假设数据集,经过初次粒划分,得到一组粒 ,其中任一粒 ,假设它含有个维的数据点 ¨粒的中心、半径、 密度和动态粒化因子分别定义如下: 粒密度是根据粒中样本点的分布求得,它是粒中各个样本点到粒中心距离之和除以粒中 样本点的总个数,再求倒数得出,具体公式如下: 山国科技论文在线 (3) 粒中心、半径、密度和动态粒化因子分别反映出一个粒的位置、大小、所包 含样本点的稠密程度和需要重新划分粒的个数。公式()中, 是用户给定的一个调 和参数,它的取值影响动态粒化因子的大小。 算法描述 根据初始粒化参数对数据集进行初次粒划分,得到一系列 。由公式(1)(2)(3)计算出每个粒的中心、半径、和密度 将每个粒的粒中心加入训练集,进行训练,得到·个分类超平面,找出那些离超 平面比较近且密度较大的粒,进行再次的粒划分,并将这些粒从粒集中去除,由公式(4) 可求得每个粒的动态粒划参数如图所示,图中黑圈代衣密度较大且离超平面比较近的 粒。用表示粒的中心到超平面的距离,满足下列条件的粒需要再次的粒划分。 表示粒的半径,动态粒化参数的大小跟密度的人小成正比,密度越大时,的 值越大。 将划分好的新粒加入到粒集中,取粒集中所有粒的粒中心再次训练重复 直到没有粒进行再次粒化,此时得到的超平面即为最优超平面,算法结束。 图粒度的再划分 算法在传统粒度支持向量机的基础上,考虑到样本的分布密度,它主要根据数 据集中样本分布的稀疏稈度和离超平面的远近,来进行重要分类信息的提取,对于密度较大 且离超平面较远的粒,只取粒中心加入训练集,而对于密度较小且离超平面近的粒,进行再 山国科技论文在线 次的粒划分,将更细的粒的中心加入训练集,因而,它在处理密度分布不均匀的数据集时, 表现出更好的特性 实验结果分析 将本文提出的算法 与传统分类器传统进行比较。实验采用八个标准数 据集 和 实验中训练集和测试集的设计情况如衣 表实验采用的数据集 数据集#训练集#测试集维数 表实验结果 数据集 k 10 20 50 100 200 SVM t(s)0.01560.01560.04680.12480.436852.655 Titanic r(%) 78.5 78.5 79 78.5 Big titanic t(s)0.03130.03150.04680.29640.29644148.189 r(%) 79.2 79.2 79.2 79.279.2 79.2 (s)0.09380.06250.23430.68752.67195569.578 Thyroid (%) 98.1 97.5 98 t(s)10.421912.843810.125019.265619.37560008.39 Diabetis r(%) 83.081.981.8 83 100.0 t(s)2.68752.73432.76562.35944.28132047.25 Breast cancer r(%)92.1 91.4 94.8 97.5 Flare solar (s)0.20280.24960.40560.40562.19961751.81 T(%) 57.5 57.5 57.4 58. 60.2 (s)3.47883.33843.36963.1980 Heart r(%) Do 9.6 98.7 98.7 100.0 111.322217.281172.125201.656172.71919330.906 German r(%) 98.1 98.698.598.3 100.0 表是 和传统分别在这八个典型的数据集上测试结果的比较,实验中 采用高斯核函数,核参数取,其中止则参数取 调和参数取初始粒划参 数(聚类参数〕是棖据数据集的大小而定的,为了确定初始粒化参数对算法的影响,在 山国科技论文在线 每个数捱集上对设置不同的数值,对实验结果进行比较。其中表的最后·列是用传统 在这八个数据集上测试的结果表中和分别代表训练的时间和正确率。从实验结果 中可以看出,在八个数据集上 的训练时间比传统有大幅度的提高,在数据集 上 算法与传统算法取得了相同的正确率,在其余的七个数据集 上,正确率虽有所下降,但在可接受范围之内。特别是在数据集 和 上,正确率都在以上,最高达 表中划方框的数据表示 算法在这七个数 据集上正确率达到的最大值。从表还可以看出,。训练时间和正确率与初始粒划参数 的选取并没有直接的线性关系。 实验结果表明,在经过粒划分压缩后的数据集上进行训练,在正确率几乎没有太大变化 的情况下,速度有了很大提高。这可能是因为再次粒划分的时候,对丁很多“不重要”的粒, 只保留粒中心加入训练集,这样很大程度上减少了训练样本,缩短了训练吋间;同吋,对于 那些对最终结果“有影响”的粒进行细化,让更多的潜在支持向量加入训练集进行训练,所 以分类的正确率仍然非常高。 结束语 木文实现了一个层次二分类支持向量机学习算法,并釆用不同的初始粒度划分参数和动 态粒度划分参数,从而使不同的训练粒落在不同的粒度层次上,又因密度较大的粒对实验结 果正确率的影响较大,本文引入了密度这参数,对密度较大的粒加以关注,使得这些粒的 错分率减小从而提高了分类的正确率实验表明, 算法与传统支持冋量机算法相比 训练速度有大幅度的提高它可以很好地处理密度不均匀数据集,为进一步进行粒度支持向 量机处理密度不均匀数据集的学习奠定了基础 参考文献

...展开详情
立即下载 最低0.43元/次 学生认证VIP会员7折
举报 举报 收藏 收藏
分享
317KB
论文研究-一种新型SQL注入攻击的研究与防范 .pdf

一种新型SQL注入攻击的研究与防范,赵阳,郭玉翠,针对一种以HTTP Headers为途径的新型SQL注入攻击进行了深入研究。通过分析具体的SQL注入实例,揭示了该新型SQL注入攻击的原理,并提出了针�

2019-08-18 立即下载
402KB
论文研究-一种android应用程序恶意行为的动态检测及拦截方法 .pdf

一种android应用程序恶意行为的动态检测及拦截方法,温圣召,温巧燕,本文主要是研究如何对基于Android平台的恶意应用的恶意行为的动态检测及拦截技术。通过对Android系统架构、binder通信及代码注入技术的�

2019-08-22 立即下载
554KB
论文研究-一种具有IDEE-FCE结构的高压FSRD .pdf

一种具有IDEE-FCE结构的高压FSRD,王彩琳,刘杰,本文提出了一种具有注入效率逆增长阳极(IDEE)和场抽取电荷阴极(FCE)的高压快软恢复二极管(FSRD)新结构(IDEE-FCE), 采用Sentaurus-TCAD��

2019-08-16 立即下载
281KB
论文研究-一种新的高速数据采集方法的研究 .pdf

一种新的高速数据采集方法的研究,刘能,徐晓,摘要:介绍了一个新颖、简单的高速数据采集方法,论证了该方法的可行性,完成了一个基于该方法并采用CPLD和单片机的系统设计,并��

2019-08-15 立即下载
235KB
论文研究-一种基于k-means的分布式k-anonymity算法 .pdf

一种基于k-means的分布式k-anonymity算法,张琦颖,程祥,随着的大数据时代的到来,数据分享、数据发布的需求日益增加。然而未经处理发布或共享原始数据,将引起隐私泄露问题。k-anonymity匿�

2019-08-19 立即下载
174KB
论文研究-一种EMS改进算法 .pdf

一种EMS改进算法,吴天庆,李微,在本论文中我们提出一种新的改进的EMS算法,该算法应用于多进制LDPC码的解码,并且大大降低了解码复杂度。这种解码算法的关键是在��

2019-08-16 立即下载
540KB
论文研究-一种分布式的DDoS攻击防御系统模型的研究 .pdf

一种分布式的DDoS攻击防御系统模型的研究,邹存强,,分布式拒绝服务攻击(DDoS)是最主要的网络安全威胁之一,具有很强的破坏力,难以防范。本文在研究现有防御机制的基础上,提出一��

2019-08-15 立即下载
271KB
论文研究-一种基于矢量水听器的最大似然时延估计方法 .pdf

一种基于矢量水听器的最大似然时延估计方法,兰华林,,针对确定脉冲信号,给出了一种基于矢量水听器的最大似然时延估计方法。对该方法进行了理论推导,并给出了时延估计的克拉美-罗下��

2019-08-16 立即下载
428KB
论文研究-一种快速精确的时钟抖动建模方法与应用 .pdf

一种快速精确的时钟抖动建模方法与应用,严皓,秦鹏,本文提出了一种能够快速而精确地模拟时钟抖动的方法,可应用于全数字锁相环(ADPLL, All Digital Phase Locked Loop)、连续时间Sigma-Delta 调�

2019-08-16 立即下载
417KB
论文研究-一种实用高效的聚类算法 .pdf

一种实用高效的聚类算法,赵美红,,在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难��

2019-08-15 立即下载
357KB
论文研究-一种用于产品在线探伤的图像检测装置 .pdf

一种用于产品在线探伤的图像检测装置,郑科荣,朱双东,介绍了一种用于产品在线检测的基于嵌入式技术的图像检测系统。该系统通过CMOS图像传感器采集产品的图像信息并转化成数字信号传输��

2019-08-20 立即下载
444KB
论文研究-一种基于改进自商图像的人脸图像光照补偿算法及其实现 .pdf

一种基于改进自商图像的人脸图像光照补偿算法及其实现,屈恩,景晓军,本文通过研究人脸识别的光照处理技术,提出了一种轻量级光照估计算法,并实现了改进的自商图像光照补偿算法。在中科院CAS-PEAL-R1人�

2019-08-19 立即下载
244KB
论文研究-一种动态分组RFID防碰撞搜索树算法研究与实现 .pdf

一种动态分组RFID防碰撞搜索树算法研究与实现,吕国宁,胡明生,多标签冲突碰撞问题是RFID技术中存在的主要问题,是目前该领域研究的热点和难点之一。在分析现有的基于二进制的防碰撞算法基础上��

2019-08-16 立即下载
296KB
论文研究-一种WDM多域网络中的疏导算法 .pdf

一种WDM多域网络中的疏导算法,吴菁晶,郭磊,本文主要研究了波分复用多域光网络中的动态业务量疏导。设计了一种多域动态业务量疏导算法HMWG(Hierarchical Multi-domain Wavelength Grooming��

2019-08-16 立即下载
277KB
论文研究-一种基于GBDT的Domain-flux僵尸网络检测方法的设计与分析 .pdf

一种基于GBDT的Domain-flux僵尸网络检测方法的设计与分析,崔卓群,吴伟明,僵尸网络是网络安全的一大威胁,而Domain-flux技术的出现使其更难以被关闭,目前没有长期解决它的办法,所以研究Domain-flux检测技术就��

2019-08-14 立即下载
441KB
论文研究-一种基于Redis的数据备份方法 .pdf

一种基于Redis的数据备份方法,车进,傅慧源,数据库技术的发展,带动了NoSQL(非关系型数据库)的崛起,其中Redis数据库因其高效性得到广泛应用。然而数据库备份技术的研究依然��

2019-08-14 立即下载
223KB
论文研究-一种基于离散辛傅里叶变换的多载波调制方法 .pdf

一种基于离散辛傅里叶变换的多载波调制方法,孙伟鹏,舒磊,本文介绍一种基于离散辛傅里叶变换(DSFT)的多载波调制方法,该方法建立了与时频域坐标系统不同的延迟-多普勒坐标系。该方案通过�

2019-08-23 立即下载
img

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐