一、数据挖掘的目的
数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的。数据挖掘的目
的就是得出隐藏在数据中的有价值的信息。数据挖掘是一门涉及面很广的交叉学
科,包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学
等相关技术。它也常被称为“知识发现”。知识发现(KDD)被认为是从数据中发
现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用
专门算法从数据中抽取模式(patter,如数据分类、聚类、关联规则发现或序列模
式发现等。数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估。
二、数据挖掘算法说明
确定了挖掘任务后,就要决定使用什么样的挖掘算法。由于条件属性在各样
本的分布特性和所反映的主观特性的不同, 每一个样本对应于真实情况的局部映
射。建立了粗糙集理论中样本知识与信息之间的对应表示关系, 给出了由属性约
简求约简决策表的方法。基于后离散化策略处理连续属性, 实现离散效率和信息
损失之间的动态折衷。提出相对值条件互信息的概念衡量单一样本中各条件属性
的相关性, 可以充分利用现有数据处理不完备信息系统。
本次数据挖掘的方法是两种,一是找到若干条特殊样本,而是找出若干条特
殊条件属性。最后利用这些样本和属性找出关联规则。(第四部分详细讲解样本
和属性的选择)
三 数据预处理过程
数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数
据类型转换(如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散
型数据转换为连续)。
本文使用的数据来源是名为“CardiologyCategorical”的excel文件中的“源数
据”。该数据表共303行,14个属性。即共有303个样本。将该数据表的前200行设
为训练样本,剩下后的103行作为测试样本,用基于粗糙集理论的属性约简的方
法生成相应的规则,再利用测试样本对这些规则进行测试。
首先对源数据进行预处理,主要包括字符型数据的转化和数据的归一化。
数据预处理的第一步是整理源数据,为了便于 matlab 读取数据,把非数字
数据转换为离散型数字数据。生成 lisanhua.xsl 文件。这一部分直接在 excel 工作
表中直接进行。
步骤如下:
将属性“sex”中的“Male”用“1”表示,“Female”用“2”表示;
将属性“chest pain type”中的“Asymptomatic”用“1”表示,“Abnormal Angina”
用“2”表示,“Angina”用“3”表示,“NoTang”用“4”表示;
评论0