离群数据挖掘方法是数据挖掘中的一个重要分支,它关注于识别数据集中的那些与常规数据明显不同的数据对象,即离群点或异常值。离群数据可能由于特殊的机制或错误产生,并且在信用卡欺诈检测、网络入侵检测、环境监测、医疗科学和天文数据分析等领域有广泛的应用。离群数据的挖掘方法多样,包括基于统计的方法、基于距离的方法、基于密度的方法、基于聚类的方法、基于网格单元的方法以及基于角度的方法。
基于网格单元的离群数据挖掘方法,它将数据集按属性值进行均匀划分,形成网格单元,并在网格单元的基础上检测离群数据。这种方法可以快速修剪掉大部分非离群数据,是典型的数据挖掘技术之一。然而,传统的基于网格单元的方法存在一些局限性,如不能精确地识别出含有离群数据的网格单元,尤其是当数据集的维度较高时。
冯婷婷和张继福提出了一种基于网格单元和P权值的离群数据挖掘算法,旨在改进传统方法的局限性。该算法首先均分数据集的每维,划分出网格单元,然后在这些网格单元中筛选出含有离群数据和正常数据的单元。对于那些同时包含离群和正常数据的网格单元,使用P权值的方法来度量和确定离群数据。P权值方法通过计算候选离群单元中数据对象与其k近邻的平均距离来评估离群的可能性,平均距离越大,该数据对象成为离群数据的概率越高。
在具体实现上,该方法不仅通过P权值的方式提高了离群数据识别的准确性,还采用了UCI数据集进行实验验证了算法的有效性。该算法特别适用于高维数据,因为它解决了传统基于网格单元方法中容易遗漏离群数据的问题。与传统方法相比,P权值方法可以更有效地处理高维数据集,并减少对内存的需求。
基于网格单元和P权值的离群数据挖掘方法通过结合网格划分和P权值的度量,克服了传统方法在处理高维数据时的不足。它在保留了网格单元方法快速识别和修剪非离群数据优点的同时,提高了离群数据挖掘的精度。该方法不仅理论上具有创新性,而且在实际应用中也显示出良好的效果,对于数据挖掘领域中的离群数据检测具有重要的实际应用价值。