学校的学生成绩进行聚类分析.pdf资源-CSDN文库

版权申诉

26 浏览量 2023-05-04 18:42:40 上传评论收藏 1011KB PDF 举报

资源推荐

资源详情

资源评论

学校的学生成绩进行聚类分析

1

、背景

随着我国经济的发展，网络已被应用到各个行业，人们对网络带来的高效率越来越重视，

然而大量数据信息给人们带来方便的同时，也随之带来了许多新问题，大量数据资源的背后

隐藏着许多重要的信息，人们希望能对其进行更深入的分析，以便更好地利用这些数据，从

中找出潜在的规律。那么，如何从大量的数据中提取并发现有用信息以提供决策的依据，已

成为一个新的研究课题。

目前普遍使用的成绩分析方法一般只能得到均值、方差等一类信息，且仅仅是从一门课程

独立数据进行的分析，但在实际教学中，比如学生在学习某一门课程时，是哪一门或者几门

课程对其影响很大，包括教学以外的哪些因素对学生成绩造成了较大的影响等各种有价值的信

息往往无法获知。

2

、聚类分析

在数据库中的知识发现和数据挖掘（

KDDM

）受到目前人工智能与数据库界的广泛重视。

KDDM

的目的是从海量的数据中提取人们感兴趣的、有价值的知识和重要的信息，聚类则是

KDDM

领域中的一个重要分支。所谓聚类是将物理或抽象的集合分组成为类似的对象组成的多

个类的过程。

聚类分析就是将一组数据分组，使其具有最大的组内相似性和最小的组间相似性。简单的

说就是达到不同聚类中的数据尽可能不同，而同一聚类中的数据尽可能相似，它与分类不

同，分类是对于目标数据库中存在哪些类这一信息是知道的，所要做的就是将每一条记录分别

属于哪一类标记出来；而聚类是在预先不知道目标数据库到底有多少类的情况下，希望将所

有的记录组成不同的簇或者说“聚类” ，并且使得在这种分类情况下，以某种度量为标准的相

似性，在同一聚类之间最小化，而在不同聚类之间最大化。事实上，聚类算法中很多算法的

相似性都基于距离而且由于现实数据库中数据类型的多样性，关于如何度量两个含有非数值型

字段的记录之间的距离的讨论有很多，并提出了相应的算法。聚类分析的算法可以分为以下

几类：划分方法、层次方法、基于密度方法等。这里只描述一种：

K-means

算法，如下

3

、

K-means

算法

K

均值聚类，即数据挖掘中的

C

均值聚类，属于聚类分析方法中一种基本的且应用最广泛

的划分算法。

K-means

算法是

J.B.MacQueen

在

1967

年提出的，是聚类方法中一个基本的划分方法，

也是目前诸多聚类算法中极有影响的一种技术。

K-

均值算法以

k

为参数，把

N

个对象分为

k

个

簇，以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余8页未读，立即下载

内容反馈

版权申诉

hhappy0123456789

粉丝: 64
资源: 5万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip