论文研究-浅层语义分析及SPARQL在问答系统中的应用.pdf

所需积分/C币:13 2019-09-11 08:59:09 519KB .PDF

针对各种扩散模式数据点分布的聚类问题,提出了一种基于密度变化的聚类算法(CDD)。CDD采用基于密度的典型聚类算法(DBSCAN)寻找核心点,通过分析数据样本及其周围点密度的扩散规律,计算密度扩散的方向、速度和加速度,对数据样本进行聚类。实验结果表明:与DBSCAN相比,能准确对扩散模式数据进行聚类,对非扩散模式数据具有抗噪声干扰能力强,参数较易确定的优点。
黄俊恒,孙玉山,朱东杰:扩散樸式的聚类算法研究 2011,47(2) 123 /从数据集屮去除已聚类元素; 4算法性能分析 从处理时间、参数选择和聚类质量三个指标分析基于扩 散模式的聚类算法(CDD)的性能。 图3算法 DBSCAN的聚类结果 41处理时间 的聚类问题,同时与 DBSCAN算法一样能处理均匀密度的聚 算法运行过程中需多次使用对象的近邻密度nnd,算法实 类问题,解决了 DBSCAN算法中对于参数过于敏感的问题。 现时采用中间数据表ndL对所有对象的近邻密度nd结果进 CDD具有以下特点:能发现任意形状的聚类;抗噪声数据千扰 行排序保存做到一次计算多次杳询。整个算法的时间主要能力比较强:输入参数易确定:区分不同密度等级的簇的能力 由表nndL表的排序和k近邻查询的时间两部分组成。mdL表能力 较强 的排序时间复杂度为O( nlogn),k近邻查询的时间复杂度为 算法的不足之处:对同一类中多点扩散的数据模式处理 O( nlogn),因此与 DBSCAN算法的时间复杂度(O( nlogn))比较困难,这是下一步研究作的方向。 相比属于同阶的,没有明显的时问差异。 4.2参数选择 参考文献 由丁在CDD算法中每次确定聚类都是求k近邻密度的最 1] Xu R, Donald W I Survey of clustering algorithm[J] IEEE Trans- 大值,因此避免了 DESCAN算法中MinP参数的选择。 Ictions on Ncural Nctworks, 2005, 16(3): 645-678 对于k值的选择,因为CDD算法勾次都从密度最大处开始2]NgRT, Han J W Clarans: A Method for clustering objects for 聚类,因此在CDD算法屮,k值没有 DBSCAN算法中那样敏感 spatial dataMining[J]IEEE Transactions on Knowledge and Data 43聚类质量 Engineering,2002,14(5):1003-1016 CDD算法与 DBSCAN一样可以在有噪声的数据集中发3] Khan ss, Ahmad A Cluster center initialization algorithm for 现任意形状的簇,并且有效地解决了算法 DBSCAN所存在的 K2 mcans clustcring[J]. Pattcrn Rccognition Lcttcrs, 2004(25 问题(高密度的聚类结果被完全包含在相连的低密度的聚类 1293-1302 [4] Ester M, Kriegel H P, Sander J, et al.a density based algorithm 结果中)。对于如图1所示的数据集,算法CDD可以聚类出如 for discovering clusters in large spatial databases with noise[C]/ 图2所示的结果如实地反映了数据集中数据的分布情况。 Proceedings of 2nd International Conference on Knowledge Dis covery and Data Mining. Portland: ACM Press, 1996: 226-231 5 Ankerst M, Breunig MM, Kriegel H P, et al.OPTICS: Ordering points to identify the clustering structurel C /Proceedings of the ACM SIGMOD Conference. Philadephia: ACM Press, 1999: 49-60 [6 Zhou A Y, Zhou S G, Cao J, et al. Approaches for scaling DB SCAn algorithm to large spatial database]Journal of Computer Science and Technology, 2000, 15(6): 509-526 图1实验数据集 图2算法CDD的聚类结果 η」蔡颖琨,谢昆青,马修军屏蔽了输入参数敏感性的 DBSCAN改进 如图3所示的结果,无法聚类出密度相对较低的簇。但若较③法门北京大学学报:自然科学版,0443:480486 而算法 DBSCAN在设置MinP较大,ε较小的时候会出现 [8] Assent I, Krieger R, Miiller E, et al. EDSC: Efficient density-based subspace clustering[C]//Proceeding ACM 17th Conference on In 大,区分不出密度等级不同的簇。 formation and Knowledge Management, CIKM 2008, Napa Val ley,USA,2008:1093-1102 5结束语 [⑨]张航,王伟,郑玲,等.一种基于密度聚类的小生境差分进化算法[ 基于扩散模式的聚类算法(CDD)有效地解决了扩散模式 计算机工程与应用,2008,44(23):42-45 (上接107页) [2] Harned S. Total SNMPIM]胡谷雨,张巍,倪桂强,译2版北京:电 乎没有文献对性能数据采集进行专门研究,本文充分应用 子工业出版社,1999 SNMP网络管理协议的操作原语对网络性能管理数据采集的 [3 Chen Y C, Chan I KSNMP GetRows: An effective scheme for re 方法进行深入探讨分析。充分利用 GetBulkRequest原语对性 trieving management information from MIB tables[J]. International 能管理常用的表数据的采集方法进行了优化。PMDC方法不 Journal of Network Management, 2007, 17(1): 51-67 仅可以用运到性能管理,同样还可以对其他网络管理功能类141 Chandragiri S Efficient transfer of bulk SnMP data[J].The Sim ple Times. 2001. 9(1) 型的表数据进行采集。 [5] Battla D L, Levin BSNMP bulk data transfer extensions[EB/OLI (2002).http://wwwicft.org/intcrnct-drafts/draft-icft-cos-snmpbulk- 参考文献: data-01. txt []杨家海,任宪坤,王沛瑜网络管理原理与实现技术[M北京:清华|6 Rose m t. MeCloghrie K, Davina rfc1187 Bulk table re 大学出版社,2000:118-158 trieval with the SNMP[S]. 1990

...展开详情
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
最新资源