下载  >  开发技术  >  其它  > 论文研究-基于K-means的有限增量聚类算法及k值研究 .pdf

论文研究-基于K-means的有限增量聚类算法及k值研究 .pdf 评分

基于K-means的有限增量聚类算法及k值研究,姚文心,卢志国,聚类算法被广泛的应用在数据挖掘、模式识别、信息抽取等领域。随着互联网技术的不断发展,许多数据存在着动态增长的特性。怎样聚
山国武技记文在 给出了·种新的确定值的方法,在‘定程度上克服值的选择问题。 有限增量聚类 聚类就是将数据点划分成组同时满足组内数据点之间的相似性尽可能人,不同组的数据 点之间的相似程度尽可能小。本文用 算法作为增量聚类的基础算法。 值的选择 聚类算法需要用户依据经验给出聚类数值,这会给用户增加很大的负担,而 且给出值具有随机性和不确定性,很大程度上会影响算法的性能。 等根据经验 规律认为最佳的聚类数应该在与间,其中为数据空间中的所有数据点的个数。 本文对值进行了研究,提出了评价聚类效果的聚类有效性函数,在给定的区间内,逐个选 取值,并利用聚类有效性函数评价聚炎效果,最终得到最优的值。给出的取值区 间相对于确定值要简单的多。 定义:假设个空间对象被聚类为个簇,使用欧几里得距离计算簇内平均距离: VOp-m: J2 式中,a为簇内平均距离,表示空间对象,为簇的均值既簇的聚类中心,表 小所包含的对象数量。 定义:假设个空间对象被聚类为个簇,簇间平均距离为 =1 M:-7 2K 式中D表示簇间平均距离,m和驾分别是簇C和的均值。 定义:假设个空间对象被聚类为个簇,定义簇密度为单位簇内平均距离包含的 空间对象数 f (3) 式中,簇密度,“和“和式中的含义相同。表示所有簇的平均密度。 聚类效果的评价从两个方面进行,是,簇内是否紧凑,是否稳定,我们用平均密度来 衡量簇的稳定度。二是,簇间是否相似度低,是否距离较大,我们用表示全局稳定度,用 簇间平均距离与聚类个数的比值衡量的大小 D F (5 从公式和可知,单体稳定度越大,簇间越紧凑。从公式可以看出,簇间平均距 离越大,聚类个数越少,值越大,聚类越稳定。 综上所述,可以用和来衡量聚类的有效性 山国武技记文在 增量聚类算法 增量聚类是在有限内存空间的背景下提出米的,目前有关增量聚类的研究主要分为两 种:一种是每次将新加入的数据和原数据重新聚类,这和方法效率低,代价大。另一种是利 用原数据聚类的结果,每次将新加入的数据划分到已有的簇中,即新增的数据点被划入距离 最近的簇中并重新计算簇的聚类中心,其优点是不需要每次对所有数据进行重新聚类缺点 是监测不出孤立点,而且随着新加入的点越来越多,聚类结构可能被打破,比如一个特定 序列中的新的数据氐可能被划分到已有个簇的一个簇中也可能被划分到新的簇中也可能 导致已有的簇合并,但是如果判断新加入点后该聚类结构该有哪些变化并没有一个很好的方 定义:假设个空间对象被聚类为个簇,定义空间对象属于簇的隶属度为该 簇·的簇内平均距离与到簇聚类中心的距离的比值。当与簇的距离人于a时,应 该不属于簇,此时的的取值小于。当的取值大于等于时,与簇的距离越小, Y的取值就越大,属于簇℃的可能性也越大 本文结合两种方法借助缓冲区机制实现了增量的聚类方法。其过程: 设置增量样本缓冲区存放待聚类的烊本。 每新来一样本,将其放入缓冲区中。 检测缓冲区,当缓冲区样本数量人于已聚类最小簇的人小时,对于缓冲区中每个样 本计算y,如果存在一个或多个簇,y的取值大于等于,取γ最大的簇将当前样本加入, 簇的聚类中心不变,并将样本从缓冲区删除。否则不做任何动作。 当缓冲区中所有样本不能被归入已有聚类时,将所有样本重新做一次聚类 步骤()中提到的簇的聚类中心不变是为了防止新加入的对象改变聚类结构。对于新 闻正文而言,其分类个数不会太多,对于新加入的新闻正文,不属于己有聚类的样本依然放 在缓冲区中(),这种样本很可能属于新的簇,等数量达到一定量以后,我们将所有数据 重新聚类一次,达到一次全部调整的效果。此増量聚类方法比较简单但可以很好的达到增量 聚类的效果,并可以部分提高增量效率。 实验 我们从六不同的新闻网站中抽取了条新闻作为数据集,在增量聚类时,首先使用五 分之三的训练样本使用 进行聚类,然后根据中描述的增量聚类的方法将剩余的 五分之二的数据进行増量聚类。其增量前和增量后的聚类效果如下图、所小 山国武技记文在 35 20 20C0 10〔 10000 4000 2300 为的时增量前的聚类效果 40 2000 1000 6I 4000 2D00 10000 图为时增量后的效果 根据值的聚类有效性函数,我们纾过多次裹类取众数,得到聚类个数的取值为 在图和图中只显小了新闻正文的三维特征值,横坐标表小平均段落文本长度,纵坐标表 示正文文本长度,竖坐标表小链接个数。图是增量前的聚类效果图,图是增量后的聚类 效果,其中用黑色线圈圈出的点为增量。根据木文描述的增量方法,如图,可以达到有效 的增量聚类的效果。 山国武技记文在 结论 传统的聚类算法无法很好的适应数据动态增长的应用。因此本文在数据类型増加有限的 前提下,以 聚类算法为基础借助缓冲池杋制实现了增量聚类算法。通过与传统聚类 算法对匕证明」有限聚类算法的有效性,同时,本文提出」一种选择值的方法。然而对于 数据类型随着数据量频繁无限增加的应用,木方法仍然需要多次重构聚类结构,对于这种情 况怎样实现高效的增量聚类仍然有待进·步矿究。 参考文献 「

...展开详情
所需积分/C币:10 上传时间:2019-08-17 资源大小:378KB
举报 举报 收藏 收藏
分享 分享
论文研究-基于k-means聚类算法的研究 .pdf

基于k-means聚类算法的研究,黄韬,刘胜辉,本文首先分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机��

立即下载
论文研究-基于K-近邻算法的人体步态识别 .pdf

基于K-近邻算法的人体步态识别,张腾腾,赵桐,针对步态特征提取时涉及到的维数高、变换复杂等问题,提出一种新的步态特征提取方法,即利用加速度传感器采集人体侧向、垂直方向

立即下载
论文研究-基于K-means的有限增量聚类算法及k值研究 .pdf

基于K-means的有限增量聚类算法及k值研究,姚文心,卢志国,聚类算法被广泛的应用在数据挖掘、模式识别、信息抽取等领域。随着互联网技术的不断发展,许多数据存在着动态增长的特性。怎样聚

立即下载
论文研究-基于K-近邻树的离群检测算法.pdf

为适应数据集分布形状多样性以及克服数据集密度问题,针对已有算法对离群簇检测效果欠佳的现状,提出了一种基于K-近邻树的离群检测算法KNMOD(outlier detection based on K-nearest neighborhood MST)。算法结合密度与方向因素,提出一种基于K-近邻的不相似性度量,然后带约束切割基于此度量构建的最小生成树从而获得离群点。算法可以有效地检测出局部离群点以及局部离群簇,与LOF、COF、KNN及INFLO算法的对比结果也证实了算法的优越性能。

立即下载
论文研究-基于K_DOPs快速连续碰撞检测算法 .pdf

基于K_DOPs快速连续碰撞检测算法,杜广龙,张平,为了实现快速精确的刚体碰撞检测,本文提出了基于间隔插值和静态K_DOPs检测技术的连续碰撞检测算法。该算法通过间隔插值技术得到逼

立即下载
论文研究-基于K-means特征的复杂环境下道路识别算法.pdf

基于视觉的智能车辆导航技术是通过对各种道路环境进行感知和理解,从而确定智能车辆的可行驶区域。针对实际道路环境的复杂性与多样性问题,提出了能够适应复杂环境的道路识别算法。首先,使用SLIC(simple linear iterative clustering)超像素分割算法对原始道路图像进行超像素分割,得到性质相同、尺寸均匀的超像素块;其次,基于超像素块使用K-means聚类算法提取出图像中道路区域与非道路区域的K维特征数据,并将提取的特征数据组成训练数据集;然后,针对经典双支持向量机(TSVM)训练时间久、无法求解逆矩阵的问题进行适当矫正,使用训练数据集训练矫正后的双支持向量机;最后,使用训练

立即下载
论文研究-基于K-means的数据流离群点检测算法.pdf

针对数据流中离群点挖掘问题,在K-means聚类算法基础上,提出了基于距离的准则进行数据间离群点判断的离群点检测DOKM算法。根据数据流概念漂移检测结果来自适应地调整滑动窗口大小,从而实现对数据流的离群点检测,与其他离群点算法的一系列实验验证和对比结果表明,DOKM算法在人工数据集和真实数据集中均可以实现对离群点的有效检测。

立即下载
论文研究-基于K-均值聚类的无监督的特征选择方法.pdf

模式识别方法首先要解决的一个问题就是特征选择,目前许多方法考虑了有监督学习的特征选择问题,对无监督学习的特征选择问题却涉及得很少。依据特征对分类结果的影响和特征之间相关性分析两个方面提出了一种基于K-均值聚类方法的特征选择算法,用于无监督学习的特征选择问题。

立即下载
论文研究-基于K-L变换(PCA)的特征脸人脸识别方法综述 .pdf

基于K-L变换(PCA)的特征脸人脸识别方法综述,程自龙,雷秀玉,首先阐述了基于特征脸人脸识别算法的具体过程及特点,然后论述了影响该方法的主要因素,列举了特征脸改进方法,最后进行了总结和

立即下载
论文研究-基于K叉树的优先队列.pdf

论文研究-基于K叉树的优先队列.pdf,  本文提出一种基于K叉树的优先队列的算法,通过建立K叉树堆的数据结构,从n个元素中得到m个元素的优先队列,其算法的最坏时间复杂度为$O(2mlog_2+n)$.本算法是基于二叉树堆的优先队列算法的推广,并具有较高的运算效率.

立即下载
论文研究-基于K-SVD超声渡越时间获取方法研究.pdf

针对信号稀疏分解中常用匹配追踪分解不够准确的问题,提出基于K-SVD奇异值分解的超声渡越时间获取方法。利用K-SVD训练得到超声回波信号的过完备字典,结合正交匹配追踪进行局部搜索适配原子,以提高信号稀疏分解的速度和准确度。基于Comsol Multipysics仿真软件建立充液污垢管道三维有限元模型,研究了超声回波传播特性规律。将K-SVD算法应用于超声回波仿真信号和换热污垢管道回波检测信号的处理,并与原始小波训练字典进行对比。结果表明,改进的K-SVD字典学习算法能够在提高信号稀疏分解的同时,获得较好的降噪结果和污垢特征信息提取,对超声检测信号的处理具有实际意义。

立即下载
论文研究-基于K-means算法的Android权限检测机制研究.pdf

为了能够有效保护用户的个人隐私,设计了一种针对Android权限的检测机制。该机制采用静态分析技术研究不同类别应用程序的权限特征,首先根据权限的使用频度设置权限组,并借鉴TF-IDF思想为权限赋予权值;然后建立相应的数据库,计算应用程序的敏感值;最后使用K-means算法进行聚类分析,将应用程序进行分类。实验结果表明,该机制能够有效地检测出未知应用程序的危险程度。

立即下载
论文研究-基于K-L信息距离的证据冲突特征识别与应用.pdf

论文研究-基于K-L信息距离的证据冲突特征识别与应用.pdf,  证据冲突是多证据融合中各种合成方法的主要制约问题,本文引入K-L信息距离函数描述证据间的冲突特征,通过构造距离矩阵定义独立证据在整个系统的冲突程度,实现对证据冲突的系统化识别.模拟实验表明:K-L信息距离的有效冲突识别,能完善D-S理论合成规则的应用约束,对正常冲突证据合成得到优化收敛结果,对高度冲突隔离证据的特征分析提取价值

立即下载
论文研究-基于K-means的印刷品图像前景提取算法研究 .pdf

基于K-means的印刷品图像前景提取算法研究,陆金鑫,周亚建,前景提取是印刷品检测系统模板图像生成的关键技术。考虑到印刷品图像特性和其所处环境的颜色特性,在HSV彩色模式下将K-means聚类用��

立即下载
论文研究-基于K-means算法的改进色彩分割算法 .pdf

基于K-means算法的改进色彩分割算法,何江龙,双锴,基于色彩空间的图像分割被称为色彩分割。在常用的色彩分割方法中,K-means聚类算法由于其简单快捷、聚类效果好、易于实现等诸多优��

立即下载
论文研究-基于K-means的无线传感网分簇算法研究.pdf

针对传统分层路由算法存在的分簇不均匀、簇头选举不合理以及数据传输形式单一等问题,提出基于K-means 的无线传感网改进分簇算法LEACH-KPP。首先在成簇阶段采用K-means 算法实现均匀分簇,随后在簇头选举阶段使用改进簇头选举函数选取簇头,最后在融合数据传输阶段根据簇头与基站、簇头与簇头之间距离动态选择单跳与多跳的混合传输方式传输数据。OMNet 仿真结果与时间复杂度推导表明,LEACH-KPP延长了网络的生存周期,在节点剩余能量与后期存活数目上都优于传统分层路由算法。

立即下载
论文研究-基于K-匿名的快递信息隐私保护应用.pdf

针对快递单号被盗取和快递单信息保护不当造成的隐私泄露问题进行了研究,提出了一种新型K-匿名模型对快递信息进行匿名处理。该方法通过随机打破记录中属性值之间的关系来匿名数据,相比于其他传统方法,克服了数据间统计关系丢失的问题和先验知识攻击。实验结果表明,新型K-匿名方法能够加强隐私保护和提高知识保护的准确性。

立即下载
论文研究-基于K近邻隶属度的聚类算法研究.pdf

经典模糊C均值聚类算法(FCM)基于欧氏距离,存在不同规模类簇不能正确聚类问题,针对此问题提出一种基于[K]近邻隶属度的模糊C均值聚类算法(KNN_FCM)。讨论了基于[K]近邻隶属度的粗糙C均值聚类算法(KNN_RCM)和粗糙模糊C均值聚类算法(KNN_RFCM),此方法避免了传统粗糙C均值聚类算法(RCM)和粗糙模糊C均值聚类算法(RFCM)中阈值选择问题。将KNN_FCM、KNN_RCM、KNN_RFCM分别与FCM、RFM、RFCM在UCI数据集上进行仿真比较,结果表明新方法是可行、有效的。

立即下载
论文研究-基于K2树的大图存储优化研究.pdf

针对大图数据的一种表达方法——K2树,提出了相应的压缩优化算法。该算法利用带有启发式规则的DFS编码对图中所有节点进行重新编码,并通过自适应调整参数K,使得K2树能够充分利用网络中的社团结构特性,从而降低空间代价。给出了K2树的优化算法描述,并针对一系列真实网络和模拟网络进行了实验,验证了优化算法具有较好的压缩效果。

立即下载
论文研究-基于K-means聚类的数字半色调算法.pdf

数字半色调是在二值设备或多色二值设备上实现图像再现的一门技术, 提出将K-means 聚类法应用在数字半色调技术中。算法中应用人类视觉系统模型HVS和印刷模型最大限度减少原始灰度连续调图像和半色调图像之间的视觉误差; 利用K-means聚类法将灰度图像划分成聚类分区, 在每个聚类分区应用最小平方法least-squares最小化二值半色调图像和原始灰度级图像之间的平方误差, 所构造的半色调算法与基于模型的最小平方法LSMB算法相比, 随着聚类分区的增加, 图像平滑且边缘清晰度增加, 尤其是在图像细节部位。与LSMB算法比较, 该算法的均方误差值有所降低, 而权重信噪比和峰值信噪比提高了0. 2

立即下载