数据挖掘与数据分析应用案例数据挖掘算法实践基于C++的k-means算法的探究实践.doc_基于数据挖掘的股票预测分析kmeans资源-CSDN文库

版权申诉

123 浏览量 2024-06-30 20:15:34 上传评论收藏 845KB DOC 举报

资源推荐

资源详情

资源评论

1

xxx 大学信息与电气工程学院 2017－2018 学年第 2 学期

《数据挖掘(研)》课程论文

课程号：220121160-01

任课教师 xxx 成绩

论文题目：k-means 算法的探究实践

论文要求：（对论文题目、内容、行文、字数等作出判分规定。）

1、结合自己感兴趣的实际应用领域，自拟题目，并使用本学期

数据挖掘课程中所学习的基本数据分析和处理方法，包括数据预处

理、探索性分析、数据仓库、相似度计算、决策树分类、最近邻分

类、朴素贝叶斯分类、逻辑回归、支持向量机、神经网络、关联规

则、K-means 聚类、层次聚类和密度聚类等知识，对所解决的实际问

题从基本理论、数学原理、算法设计、数据描述和实验结果与分析

等角度展开描述。

2、要求论文结构清晰、语言通顺、图文并茂，字数不少于 5000

字。正文首行缩进 2 个汉字，多倍行距设置为 1.25，字体要求汉字

为宋体，英文为 Times New Roman，大小为小四。论文一定要亲自

撰写，自己动手设计算法和编写程序，如发现论文来自网上，或是

抄袭他人，按作弊处理，本门课程考核总成绩计 0 分。

3、上交论文电子版时每人提交一个文件夹，里面包含论文电子

版和程序文件夹；文件夹和论文电子版的命名格式统一为“学号-姓

名-班级-论文题目”。此外，必须上交论文的打印稿，并要与电子稿

的内容一致，不规范者将酌情扣分。

教师评语：

教师签字：

年月日

正文

k-means 算法基本理论：

k-means 算法是简单而有效的统计聚类算法，使机器能够将具有相同属性的样本

归置到一块儿。与分类不同，对于一个分类器，通常需要告诉它“这个样本被分成哪

些类”这样一些标签，在最理想的情况下，一个分类器会从所得到的训练集中进行

“学习”，我们将这种提供训练的过程称为“监督学习”。但是在聚类下，我们并不关

心某一类是什么，我们的目的是想将相似的样本归置在一起，这样，一个聚类算法通

常只要知道如何计算样本间的相似的样本归并到一起就可以操作了，因此聚类通常并

不需要使用训练数据进行学习，这在机器学习中被称作“无监督学习”。K-means 算

法就是这种用于统计的无监督类技术。它是一种聚类算法，所谓聚类，即根据相似性

原装额，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对

象划分至不同类簇。聚类与分类最大的区别在于，聚类过程为无监督过程，即待处理

数据对象没有任何先验知识，而分类过程为有监督过程，即存在有先验知识的训练数

据集。K-means 算法中的 k 代表类簇个数，means 代表类簇内数据对象的均值（这种

均值是一种对类簇中心的描述），因此，k-means 算法又称为 k 均值算法 k-means 算法

是一种基于划分的聚类算法，以距离作为数据对象间相似度量的标准，即数据对象间

的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。数据对象间距离

的计算有很多种，k-means 算法通常采用欧式距离来计算数据对象间的距离。

k-mean 算法实现步骤：

k-means 算法的基本思想是初始随机给定 k 个簇中心，按照最邻近原则把待分类

样本点分到各个簇。然后按照平均法重新计算各个簇的知心，从而确定新的簇心。一

直迭代，直到簇心的移动距离小于某个给定的值。

具体步骤如下：

（1）第一步是为待聚类的点寻找聚类中心；

（2）第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中

去；

（3）第三步是计算每个聚类中所有点的聚类平均值，并将这个平均值作为新的聚类

中心，反复执行（2）、（3）知道聚类中心不再进行大范围的移动或者聚类粗疏

达到要求为止。

学院_______专业_计算机科学与技术___班级___1502_____本专学号__20152203047___姓名 xxx_________________

密封线学生须将文字写在此线以下

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余7页未读，立即下载

内容反馈

版权申诉

passionSnail

粉丝: 464
资源: 7835

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip