系统的功能,从大量数据中发现潜在规律,提高学校管理的决策性,是很多高校正在考
虑的问题。因此,对学生成绩数据进行深入挖掘分析,找出影响学生学习的各种潜在的因
素,将会促进学校开展更加具有针对性的个性化教育,同时营造一种新的教学管理模式,
进一步促进教学管理水平的提高
2、主要原理和思想:
聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。简单
的说就是达到不同聚类中的数据尽可能不同,而同一聚类中的数据尽可能相似,它与分类
不同,分类是对于目标数据库中存在哪些类这一信息是知道的,所要做的就是将每一条
记录分别属于哪一类标记出来;而聚类是在预先不知道目标数据库到底有多少类的情况
下,希望将所有的记录组成不同的簇或者说“聚类”,并且使得在这种分类情况下,以某
种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。事实上,
聚类算法中很多算法的相似性都基于距离而且由于现实数据库中数据类型的多样性,关
于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多,并提出了相应的算
法。聚类分析的算法可以分为以下几类:划分方法、层次方法等。
2。1聚类分析原理方法:
在数据挖掘技术中,聚类分析主要有以下几种方法.
(1)划分法(Partitioning Methods)
划分法给定一个有N个元组或者记录的数据集,构造K个分组,每一个分组就代表一个聚
簇,K〈 N。而且这K个分组满足下列条件:每个组至少包括一个对象,每个对象必须属于
且只属于一个组。对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代
的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:
同一组中的记录越近越好,而不同分组中的记录越远越好。使用这个基本思想的算法有:
K均值算法、K中心点算法、CLARANS算法。K均值算法一般只能在簇的平均值被定义的情
况下才能被使用,这对于涉及有分类属性的数据的应用可能会显得不适用,该方法不易
发现非凸面形状的簇和大小差别很大的簇;K中心点算法在中心点的计算过程中需要反复
迭代计算,其计算量很大,这对于对象及划分数的值较大时,其计算代价相当高。
(2)层次法(Hierarchical Methods)
层次法就是把数据库分成多个层次,然后对不同层次的数据采用划分聚类。输出的是一棵
层次化的分类树,层次的方法可以分为凝聚的和分裂的.凝聚的方法也称为自底向上的方
法,一开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的
组合并为一个(层次的最上层),或者达到一个终止条件.分裂的方法,也称为自顶向下
的方法,一开始将所有的对象置于一个类中。在迭代的每一步中,一个类被分裂为更小的
类。直到最终每个对象在单独的一个类中,或者达到一个终止条件.
3。数据情况介绍:
3。1数据信息:我院某年级学生大学四年全部实际课程数据,分计科、信管1、信管2三
个班级
3.2数据净化
数字净化据源中不正确,不完善等不可能达到数据挖掘质量要求的数据,从而提高数据的质
量得到更正的数据挖掘结果.
研究所针对的学生成绩数据中,遇到的主要是空值问题。对此,本研究采用了两种处理
方法若该学生有三门及以上成绩为空,则将其作为异常点从数据除去;若该生有两门及
以下课程成绩为空。则取所在班级对应课程的平均成绩来代替空值。
4.分析过程:
第一步,启动并进入SPSS系统,
评论0
最新资源