【免费】weka学习报告61资源-CSDN文库

需积分: 0 171 浏览量 2022-08-08 19:04:06 上传评论收藏 259KB DOCX 举报

资源推荐

资源详情

资源评论

基于 WEKA 的数据挖掘算法学习（六）

1. 聚类

1.1 聚类任务

在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学

习来揭示数据的内在性质及规律，为进一步数据分析提供基础。聚类的目的是试图将数据集

中的样本划分为若干个通常不相交的子集，每个子集称为一个“簇”。

聚类既能是一个单独过程，用于寻找数据内在的分布结构，也可作为分类等其他学习任

务的前驱过程。

1.2 性能度量

聚类性能指标大致两类，一是将聚类结果与某个“参考模型”进行比较，称为“外部指标”，

二是直接考察聚类结果而不利用任何参考模型，称为“内部指标”。

聚类性能的度量的外部指标为：

Jaccard 系数：

𝑎

𝑏

𝑐

FMI 指数：

FMI

𝑎

𝑏

𝑎

𝑐

Rand 指数：

2(𝑎

𝑑)

𝑚(𝑚

―

性能度量结果值均在[0,1]区间，值越大越好。

聚类性能的度量的内部指标为：

DB 指数：

DBI

𝐾

∑

𝑘

𝑖

𝑚𝑎𝑥

𝑗

≠

𝑖

(

𝑎𝑣𝑔

(

𝐶

𝑖

)

𝑎𝑣𝑔(

𝐶

𝑗

)

𝑑

𝑐𝑒𝑛

(

𝑢

𝑖

𝑢

𝑗

)

Dunn 指数：

𝑚𝑖𝑛

≤

𝐼

≤

𝐾

𝑚𝑖𝑛

𝑗

≠

𝑖

(

𝑑

𝑚𝑖𝑛

(

𝐶

𝑖

𝐶

𝑗

)

𝑚𝑎𝑥

≤

𝑙

≤

𝑘

𝑑𝑖𝑎𝑚(

𝐶

𝑙

)

DBI 的值越小越好，而 DI 的值越大越好。

1.3 距离计算

给定样本

𝒙

𝑖

(

𝑥

𝑖1

;

𝑥

𝑖2

;

…;

𝑥

𝑖𝑛

)

与

𝒙

𝑗

(

𝑥

𝑗

;

𝑥

𝑗

;

…;

𝑥

𝑗

𝑛

)

，最常用的是闵可夫斯

基距离：

𝑑𝑖𝑠𝑡

𝑚𝑘

(

𝒙

𝑖

𝒙

𝑗

)

(

∑

𝑛

𝑢

𝑥

𝑖𝑢

―

𝑥

𝑗𝑢

𝑝

)

𝑝

其中当 p=1 时为曼哈顿距离，p=2 时为欧式距离。

此外，对于无序属性，使用 VDM 距离：

𝑉𝐷𝑀

𝑃

(

𝑎,𝑏

)

∑

𝑘

𝑖

𝑚

𝑢,𝑎,𝑖

𝑚

𝑢,𝑎

―

𝑚

𝑢,𝑏,𝑖

𝑚

𝑢,𝑏

𝑝

其中，

𝑚

𝑢,𝑎

表示属性 u 上取值为 a 的样本数，

𝑚

𝑢,𝑎,𝑖

表示在第 i 个样本簇中在属性 u 上取值为

a 的样本数，k 为样本簇数。

明显的，闵可夫斯基距离和 VDM 结合可处理混合属性，当样本空间中不同属性重要性

不同时，可使用加权距离，赋予权重。

1.4 聚类算法

1.4.1 k 均值算法（k-means）

算法核心思想：首先选定簇数，随机选择样本作为初始均值向量，依次考察每个样本与

当前均值向量均值的距离，选定距离最近的簇，归于该簇。

所有样本考察结束一轮以后，分别更新，每个簇的新的均值向量，不断重复上述过程，

当均值向量未更新后得到最终的簇划分。为了防止运行时间过长，设置一个最大运行轮数或

者最小调整幅度阈值。

1.4.2 学习向量量化（LVQ）

试图找到一组原型向量来刻画聚类结构，与一般聚类算法不同，LVQ 假设数据样本带

有类别标记，学习过程中利用样本的监督信息来辅助聚类。

算法核心思想：首先令样本带上类别标记，设置簇数 q，学习目标就是找 q 个原型向量，

并且假定 q 个原型向量对应的类别标记。

根据样本的类别标记和簇预设类别标记对原型向量进行随机初始化，选择样本与某个原

型向量距离最相近者，当二者具有相同（不同）的类别标记时，更新原型向量为：

𝑝

′

‘’

𝑝

(

𝒙

𝑖

―

不断重复上述过程，迭代不同的轮数。

1.4.3 密度聚类（DBSCAN）

此算法假设聚类结构能通过样本分布的紧密程度确定，通常根据样本密度的角度来考察

样本之间的可连接性，基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

DBSCAN 是著名的一种密度聚类算法，基于领域参数来刻画样本分布的紧密程度。

算法核心思想：随机选择数据集中的一个核心对象作为“种子”，由此出发确定相应的聚

类簇。根据给定领域参数（e，MinPts）找到所有的核心对象，以任意核心对象出发，找出

由密度可达的样本生成聚类簇，直到所有核心对象均被访问过。最终得到簇划分。

剩余11页未读，继续阅读

评论收藏

内容反馈

会飞的黄油

粉丝: 22
资源: 303

weka学习报告61

weka学习报告71

weka学习报告91

weka学习报告41

weka学习报告81

weka学习报告31

数据挖掘-WEKA实验报告一.pdf

weka学习报告21

weka学习报告51

weka学习报告11

数据挖掘（机器学习）课程报告及weka源码及相关论文

基于weka的数据分类分析实验报告(精选)

数据挖掘WEKA实验报告1.docx

WEKA学习数据集之bank数据集

WEKA使用教程WEKA使用教程

数据挖掘weka使用C4.5实验报告

数据挖掘WEKA实验报告.docx

weka实验报告.pdf

Weka_apriori学习资料

基于Python爬虫实现天气预报和数据可视化分析，应付数据分析大作业

EDA探索式数据分析案例数据集

Python数据分析项目实践，包括数据读取、评估、清洗、分析、可视化机器学习相关内容等

5-8抖音数据分析数据集

Python数据分析与可视化大作业 + 源代码 + 数据 + 详细文档

python数据分析大作业-爬虫、建立模型、可视化、结论分析

统计数模历年优秀论文-全国大学生统计建模大赛

r语言数据分析案例数据分析、数据预测和机器学习案例

origin2021下载免费分享

2023高教社数学建模C题 - 蔬菜类商品的自动定价与补货决策【数据处理详细代码】

最新资源