matlab-data-mining.rar_关联规则_数据挖掘_数据挖掘matlab_模糊数学

共1个文件

doc：1个

版权申诉

关联规则

模糊数学

96 浏览量 2022-09-14 20:14:43 上传评论收藏 12KB RAR 举报

资源详情

资源评论

资源推荐

收起资源包目录

matlab-data-mining.rar （1个子文件）

matlab data mining.doc 74KB

一、数据挖掘的目的

数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的。数据挖掘的目

的就是得出隐藏在数据中的有价值的信息。数据挖掘是一门涉及面很广的交叉学

科，包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学

等相关技术。它也常被称为“知识发现”。知识发现(KDD)被认为是从数据中发

现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤，它用

专门算法从数据中抽取模式(patter，如数据分类、聚类、关联规则发现或序列模

式发现等。数据挖掘主要步骤是：数据准备、数据挖掘、结果的解释评估。

二、数据挖掘算法说明

确定了挖掘任务后，就要决定使用什么样的挖掘算法。由于条件属性在各样

本的分布特性和所反映的主观特性的不同, 每一个样本对应于真实情况的局部映

射。建立了粗糙集理论中样本知识与信息之间的对应表示关系, 给出了由属性约

简求约简决策表的方法。基于后离散化策略处理连续属性, 实现离散效率和信息

损失之间的动态折衷。提出相对值条件互信息的概念衡量单一样本中各条件属性

的相关性, 可以充分利用现有数据处理不完备信息系统。

本次数据挖掘的方法是两种，一是找到若干条特殊样本，而是找出若干条特

殊条件属性。最后利用这些样本和属性找出关联规则。（第四部分详细讲解样本

和属性的选择）

三数据预处理过程

数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数

据类型转换(如把连续值数据转换为离散型数据，以便于符号归纳，或是把离散

型数据转换为连续)。

本文使用的数据来源是名为“CardiologyCategorical”的excel文件中的“源数

据”。该数据表共303行，14个属性。即共有303个样本。将该数据表的前200行设

为训练样本，剩下后的103行作为测试样本，用基于粗糙集理论的属性约简的方

法生成相应的规则，再利用测试样本对这些规则进行测试。

首先对源数据进行预处理，主要包括字符型数据的转化和数据的归一化。

数据预处理的第一步是整理源数据，为了便于 matlab 读取数据，把非数字

数据转换为离散型数字数据。生成 lisanhua.xsl 文件。这一部分直接在 excel 工作

表中直接进行。

步骤如下：

将属性“sex”中的“Male”用“1”表示，“Female”用“2”表示；

将属性“chest pain type”中的“Asymptomatic”用“1”表示，“Abnormal Angina”

用“2”表示，“Angina”用“3”表示，“NoTang”用“4”表示；

将属性“Fasting blood suga<120” 与属性“angina” 中的“FALSE” 用“1” 表示，

“TRUE”用“2”表示；

将属性 “resting ecg” 中的 “Hyp” 用 “1” 表示， “Normal” 用 “2” 表示，

“Abnormal”用“3”表示；

将属性“slope”中的“Down”用“1”表示，“Flat”用“2”表示，“Up”用“3”表示,；

将属性“thal”中的“Rev”用“1”表示，“Normal”用“2”表示，“Fix”用“3”表示；

将属性“class”中的“Healthy”用“1”表示，“Sick”用“2”表示；

数据预处理的第二步：使用

dm=xlsread('lisanhua');

导入’lisanhua’.xls 文件，在 MATLAB 中对一些连续属性值离散化。

如下：

1、[29,48]=1，[48,62]=2，[62,77]=3

4、[94,110]=1，[110,143]=2，[143,200]=3

5、[126,205]=1，[205,293]=2，[293，564]=3

8、[71,120]=1，[120,175]=2，[175,202]=3

10、[0,1.5]=1，[1.5,2.5]=2，[2.5,6.2]=3。

然后对数据进行归一化处理：

由于不同属性之间的属性值相同，所以利用下面语句对一共 13 个条件属性中的

38 个属性进行如下赋值，使每条属性唯一确定。从而得到 38 个条件属性，只不

过 38 个里面有且只能出现 13 个。

程序如下：

m1=[0,3,2,4,3,3,2,3,3,2,3,3,4,3];k=1;w=m1(k);dm3=dm2;

for i=1:3939

dm3(i)=dm2(i)+w;

if rem(i,303)==0

k=k+1;

w=w+m1(k);

end

从而得到 dm(3)矩阵。而且决策属性分为 1：healthy；2：sick。

并且在 38 个条件属性中没有值为 0。

四、挖掘算法

1、特殊样本

首先在前 200 条样本中分别找出三条对应两种决策属性的重要样本，样本必

须满足在同类决策属性下其他 199 条的 13 条决策属性中和它的 13 条条件属性

数目大于等于 10 的前 3 条样本。

2、特殊条件属性值

其次分别对应两条决策属性值的 5 条重要条件属性值（在 38 个条件属性里

找），特殊属性值必须满足：(1)在对应相同决策属性下，此决策属性支持率必须

在前五，(2)而且如果不同决策属性出现相同条件属性。如果相同决策属性同时

出现在不同决策属性中，删除这条后找支持率第六的条件属性，以此类推。

挖掘算法在 MATLAB 里列出并做了标注。

五、验证程序

1、预处理

在验证程序里面分别对测试数据和六条样本做了对比，又对其属性值和特殊

属性值做了对比，最后利用加权求和算法判断测试样本的决策属性正确率。

其中：nc，mc 代表测试数据分别和两类样本属性中相同数是否大于等于 9

时的加权值。ncc,mcc 代表测试数据分别和两类特殊属性满足几条数目的加权值。

2、关联规则

(1)、如果(nc>=0.9&ncc>=8)|(ncc>=10&nc>=0.6) 得到决策属性 healthy

(2)、不满足以上条件的话如果(mc>=0.9|mcc>=8)|(mcc>=9&mc>=0.6) 得到决策

属性 sick。

(3)、不满足以上条件的话如果 nc>=(mc+0.3)|ncc>=(mcc+2) 得到决策属性 healthy。

(4)、不满足以上条件的话如果 mc>nc 得到决策属性为 sick。

(5)、不满足以上条件的话如果 ncc>mcc 得到决策属性为 healthy。

(6)、不满足以上条件的话如果 mcc>ncc 得到决策属性为 sick。

(7)、不满足以上条件的话得到决策属性为 sick。

六、正确率及结果分析

正确率为 82.5%

结果分析：由于采用了两类约束方法，所以效果还可以。

七、程序如下页所示

clear;

%%%%% 数据预处理程序 %%%%%%

dm=xlsread('lisanhua'); % 载入数据

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

z1=dm(:,1); % 离散化第一列数据

for i=1:303

if z1(i)>=29&z1(i)<48

z1(i)=1;

elseif z1(i)>=48&z1(i)<62

z1(i)=2;

else z1(i)=3;

end

z2=dm(:,2);

for i=1:303

if z2(i)==0

z2(i)=1;

else z2(i)=2;

end

z3=dm(:,3);

for i=1:303

z3(i)=z3(i)+1;

end

z4=dm(:,4);

for i=1:303

if z4(i)>=94&z4(i)<110

z4(i)=1;

elseif z4(i)>=110&z4(i)<143

z4(i)=2;

else z4(i)=3;

end

z5=dm(:,5);

for i=1:303

if z5(i)>=126&z5(i)<205

z5(i)=1;

elseif z5(i)>=205&z5(i)<293

z5(i)=2;

else z5(i)=3;

end

z6=dm(:,6);

for i=1:303

z6(i)=z6(i)+1;

end

z7=dm(:,7);

for i=1:303

z7(i)=z7(i)+1;

end

z8=dm(:,8);

for i=1:303

if z8(i)>=71&z8(i)<120

z8(i)=1;

elseif z8(i)>=120&z8(i)<175

z8(i)=2;

评论收藏

内容反馈

版权申诉

钱亚锋

粉丝: 86
资源: 1万+

matlab-data-mining.rar_关联规则_数据挖掘_数据挖掘 matlab_模糊数学_粗糙模糊聚类

评论0

最新资源

matlab-data-mining.rar_关联规则_数据 挖掘_数据挖掘 matlab_模糊数学_粗糙模糊聚类

评论0

k-means聚类算法及matlab代码-dataMining:数据挖掘

k-means聚类算法及matlab代码-Data-mining:数据挖掘

k-means聚类算法及matlab代码-DataMining-Experiment:数据挖掘实验

matlab源码求一元函数-BigDataMining:大数据分析与数据挖掘百度云资源持续更新中，欢迎点赞starMin'sblog欢迎访问我

关联规则的matlab代码-Data-Mining-Homeworks:数据挖掘-家庭作业

聚类马氏距离代码MATLAB-DataMining:我用于课程数据挖掘的数据挖掘代码伊朗mashhad的ferdowsi大学

关联规则的matlab代码-DataMining-ID2222:数据挖掘ID2222

k-means聚类算法及matlab代码-K-Clustering_demo:使用Matlab实现K集群

基于matlab的表情识别代码-data-mining:数据挖掘算法的应用：KNN，K-means聚类和多标签学习

nmf的matlab代码-symnmf:对称NMF用于图聚类

数据融合matlab代码-SC-SRGF:通过子空间随机化和图融合对高维数据进行光谱聚类的Matlab代码（PAKDD2020）

Gait-CAD (Data Mining for MATLAB)-开源

nmf的matlab代码-hiernmf2:用于文档聚类和主题建模的等级2等级NMF

数据分析.doc

nmf的matlab代码-hiernmf2-vis:用于文档聚类和可视化主题建模的等级2等级NMF

冰河的渗透实战笔记-冰河.pdf

大灰狼远控2021最新版，解压密码222

J-LINK V10 V11固件.rar

ISO21434.pdf

Web安全漏洞扫描工具-AWVS14

CTF 竞赛入门指南（ctf-all-in-one）.pdf

Web中间件常见漏洞总结.pdf

stm32f103 adc采样+dma传输+fft处理 频率计_fft处理_stm32_ADCFFT_频率计_ADC采样_

jts-1.14.zip

CobaltStrike4.4.zip

cisp-pte渗透测试资源下载 （考试环境+题库）

goby2021红队专版，1.8.255

RK3568硬件设计资料.zip_C#

最新资源

matlab-data-mining.rar_关联规则_数据挖掘_数据挖掘 matlab_模糊数学_粗糙模糊聚类

stm32f103 adc采样+dma传输+fft处理频率计_fft处理_stm32_ADCFFT_频率计_ADC采样_

cisp-pte渗透测试资源下载（考试环境+题库）