学校的学生成绩进行聚类分析
1
、背景
随着我国经济的发展, 网络已被应用到各个行业, 人们对网络带来的高效率越来越重视,
然而大量数据信息给人们带来方便的同时, 也随之带来了许多新问题, 大量数据资源的背后
隐藏着许多重要的信息, 人们希望能对其进行更深入的分析, 以便更好地利用这些数据, 从
中找出潜在的规律。 那么, 如何从大量的数据中提取并发现有用信息以提供决策的依据, 已
成为一个新的研究课题。
目前普遍使用的成绩分析方法一般只能得到均值、方差等一类信息,且仅仅是从一门课 程
独立数据进行的分析, 但在实际教学中, 比如学生在学习某一门课程时, 是哪一门或者几 门
课程对其影响很大, 包括教学以外的哪些因素对学生成绩造成了较大的影响等各种有价值 的信
息往往无法获知。
2
、聚类分析
在数据库中的知识发现和数据挖掘 (
KDDM
)受到目前人工智能与数据库界的广泛重视。
KDDM
的目的是从海量的数据中提取人们感兴趣的、 有价值的知识和重要的信息, 聚类则是
KDDM
领域中的一个重要分支。 所谓聚类是将物理或抽象的集合分组成为类似的对象组成的 多
个类的过程。
聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。简单 的
说就是达到不同聚类中的数据尽可能不同, 而同一聚类中的数据尽可能相似, 它与分类不
同,分类是对于目标数据库中存在哪些类这一信息是知道的, 所要做的就是将每一条记录分 别
属于哪一类标记出来; 而聚类是在预先不知道目标数据库到底有多少类的情况下, 希望将 所
有的记录组成不同的簇或者说“聚类” ,并且使得在这种分类情况下,以某种度量为标准 的相
似性, 在同一聚类之间最小化, 而在不同聚类之间最大化。事实上,聚类算法中很多算 法的
相似性都基于距离而且由于现实数据库中数据类型的多样性, 关于如何度量两个含有非 数值型
字段的记录之间的距离的讨论有很多, 并提出了相应的算法。 聚类分析的算法可以分 为以下
几类:划分方法、层次方法、基于密度方法等。这里只描述一种:
K-means
算法,如 下
3
、
K-means
算法
K
均值聚类,即数据挖掘中的
C
均值聚类,属于聚类分析方法中一种基本的且应用最广 泛
的划分算法。
K-means
算法是
J.B.MacQueen
在
1967
年提出的,是聚类方法中一个基本的划分方法,
也 是目前诸多聚类算法中极有影响的一种技术。
K-
均值算法以
k
为参数,把
N
个对象分为
k
个
簇,以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。