没有合适的资源?快使用搜索试试~ 我知道了~
论文研究-基于噪点抑制的聚类有效性评价函数构建.pdf
需积分: 9 0 下载量 45 浏览量
2019-07-22
20:43:51
上传
评论
收藏 779KB PDF 举报
温馨提示
试读
3页
针对传统聚类有效性评价函数中没有利用到数据集结构信息和噪点删除过量等问题,提出一种新的聚类有效性评价函数。该函数由紧密性度量与分离性度量组成,在紧密性度量中加入距离函数表示数据集几何结构,避免单一理论给评价带来的不全面性;在分离性度量中,设定距离临界值L,与原有的隶属度临界值T两者之间的相互约束,减少删除噪点的数量,避免因数据信息丢失对评价结果造成的不准确性。最后,将新构建的评价函数与原函数进行对比实验,结果表明该方法具有更好的适用性。
资源推荐
资源详情
资源评论
收稿日期! !"#$%";%"!! 修回日期! !"#$%"(%#'::基金项目! 国家自然科学基金资助项目"9#"9!" ' ;$9#!9!#)## !黑龙江省研究生创新基
金重点资助项目" fUOBY!"##%""$>aU# !黑龙江省高等学校哲学社会科学创新团队建设计划资助项目" I^!"#!"$#
作者简介!翟丽丽"#)($%#$ 女$教授$硕导$主要研究方向为管理信息系统%电子商务%虚拟企业" PE/565652#!(-784#!张雪"#)''%# $女$硕士研
究生$主要研究方向为决策方法!彭定洪"#)'!%# $男$博士研究生$主要研究方向为评价方法!李艳来"#) 9 &%#$女$副教授$主要研究方向为综合评
价方法%数据挖掘等-
基于噪点抑制的聚类有效性评价函数构建
"
翟丽丽! 张:雪! 彭定洪! 李艳来
"哈尔滨理工大学 高新技术产业发展研究中心$ 哈尔滨 #;""&"#
摘:要! 针对传统聚类有效性评价函数中没有利用到数据集结构信息和噪点删除过量等问题$ 提出一种新的聚
类有效性评价函数& 该函数由紧密性度量与分离性度量组成$在紧密性度量中加入距离函数表示数据集几何结
构$避免单一理论给评价带来的不全面性!在分离性度量中$设定距离临界值 ($与原有的隶属度临界值 >两者
之间的相互约束
$减少删除噪点的数量$避免因数据信息丢失对评价结果造成的不准确性& 最后$将新构建的评
价函数与原函数进行对比实验$ 结果表明该方法具有更好的适用性&
关键词! 聚类分析! 有效性评价函数! 紧密性度量! 分离性度量! 噪点抑制
中图分类号! IC$##:::文献标志码! K:::::文章编号! #""#%$();"!"#&#"#%""$9%"$
L85!#"-$)() M+-5**N-#""#%$();-!"#&-"#-""9
B8N*<1H7<58N 8Q76H*<015N3F/65L5<,0F/6H/<58N QHN7<58N S/*0L 8N N85*0*H..10**58N
_>KTa5%65! _>KWXYH0! C]WX^5N3%E8N3! aTf/N%6/5
"L64?X#%3? :5E@8#+6$0=%7%0*/.%5#R%8%$+3? -%5#%+! L$+)65 <567%+86#'*,"36%53%9>%3? 5 *0*4'! L$+)65 #;""&"! -?65$$
!"#$%&'$% K*<1/L5<58N/676H*<015N3F/65L5<,0F/6H/<58N QHN7<58N L5L N8<</=0/LF/N</308Q<E0*<1H7<H105NQ814/<58N 8Q<E0L/</
*0<
! /NL L060<0L 0[70**5F0N85*0! <E5*./.01L0*53N0L /N0R76H*<015N3F/65L5<,0F/6H/<58N QHN7<58N-IE0QHN7<58N R/*784.8*0L
S,<E0<53E<N0**40/*H10/NL *0./1/S565<,40/*H10! /NL L5*</N70QHN7<58N R/*/LL0L <8<E0<53E<N0**40/*H10<810.10*0N<<E0308%
40<157*<1H7<H108Q<E0L/</*0<! <8/F85L S05N3N8<784.10E0N*5F05Q0F/6H/<0L S,/*5N360<E081,-TN *0./1/S565<,40/*H10! 5<*0<
<E0L5*</N70<E10*E86L ( /NL S05N34H<H/610*<1/5N<8N 81535N/6404S01*E5. <E10*E86L ><810LH70<E0/48HN<8QN85*0L060<0L! <8
/F85L 5N/77H1/750*<E/<R/*7/H*0L S,68**8QL/</5NQ814/<58N 8N <E00F/6H/<58N 10*H6<*-\5N/66,! <E0N0RSH56L5N38Q<E00F/6H/%
<58N QHN7<58N 784./10L R5<E <E081535N/6QHN7<58N 8Q0[.01540N</610*H6<**E8R<E/<<E0.18.8*0L 40<E8L E/*S0<<01/..657/S565<,-
()* +,%-#% 76H*<01/N/6,*5*# 0QQ07<5F0N0**0F/6H/<58N QHN7<58N# <53E<N0**40/*H10# *0./1/S565<,40/*H10# N85*0
::聚类有效性评价是对聚类结果优劣进行评价的方法!根据
有效性函数评价准则不同!聚类有效性评价方法可分为内部评
价法
)相关评价法和外部评价法
'#(
& 根据评价理论的不同!聚
类有效性评价又可分为基于数据集模糊划分的方法)基于数据
集几何结构的方法和基于数据统计信息的方法
'!(
& 聚类有效
性评价主要采用类内紧密度与类间分离度作为评价指标& 类
内各元素相似度越大
!类内紧密度越好#类间各元素相似度越
小
!分离度越好&
在构建聚类有效性评价函数过程中!所运用的理论知识不
同!则紧密度和分离度的表达形式不同!得到的有效性评价函
数亦不同!如 ^HNN 函数" ^T$
'$(
)T函数
'&(
)B>
';(
函数等是根
据数据集几何结构理论设计不同的距离来表达类内紧密度和
类间分离度
& 基于数据集几何结构的聚类有效性评价函数能
够很好地利用数据结构!但计算量大!表述复杂& 随着聚类分
析方法的增多
!模糊聚类的出现!几何结构的评价方法无法全
面地评价聚类结果的优劣
& G0PL0=
'((
提出的划分系数"CB$ 和
OE/NN8N 的划分熵"C]$
'9(
)V5NLE/4
''(
的比例系数等指标是基
于模糊划分!利用概率理论中的隶属度作为评价指标!CB和
C]指标具有很好的数学性质!但也存在着随类数目 3的增加
而单调递增或递减的趋势!仅利用到数据集本身!缺乏与数据
几何结构的直观联系
& 目前!多理论的结合已成为聚类有效性
评价函数研究的热点& _/E5L 等人
')(
将模糊紧密度和模糊分
离度的概念引入到传统的有效性指标中
!得到 OB指标& Y50
等人
'#"(
首先结合了数据集几何特征和模糊理论!构建了 F
Y50
指标& 唐明会等人
'##(
在分析传统有效性评价函数基础上!总
结了基于数据集几何结构的模糊聚类有效性函数的研究进展
&
根据 O?@特性!把对分类敏感的并且降低分类精度的样
本点视为噪点
!它们位于异类最近点处
'#!(
& 由于噪点的存在!
影响了聚类评价的效果!本文对文献'#$( 提出的聚类有效性
评价函数"下文简称为 @CZ函数$ 进行改进!加入数据集几何
结构特性!在紧密型指标中增加距离临界值 ( 并给出其约束条
件!构建新的聚类有效性评价指标& 该函数有效地避免了噪点
对聚类结果检验的影响!减少了剔除噪点的个数!避免数据丢
失
!并能更加准确地得到类与类之间的噪点&
!
:
+.M
聚类有效性评价函数
在噪声环境进行有效性分析时!考虑聚类的紧密性与分离
性时也将噪声点包含进来!使得有效性指标对噪声和野值敏
感& @CZ聚类的有效性评价函数由紧密性度量与分离性度量
第 $# 卷第 # 期
!"#& 年 # 月:
计 算 机 应 用 研 究
K..657/<58N A0*0/17E 8QB84.H<01*
?86J$# W8J#
U/NJ!"#&
资源评论
weixin_39840515
- 粉丝: 446
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功