基于自组织特征映射网络在鸢尾花分类中的应用研究
摘 要: 以公开数据集鸢尾花数据集为例,利用自组织特征映射(SOFM)将鸢尾花聚类,将鸢尾花的四个特征投影到二维平面中,同时分析
鸢尾花数据集输入的四个特征的相关性,删除高度相关的特征,分析自组织特征映射神经网络的优缺点,以两组特征输入向量训练感知机
模型。实验结果表明,两个特征的分类效果优于四个特征。为多特征分类研究提供参考。
关键词: 自组织特征映射神经网络;鸢尾花;特征提取;感知器
Application of self-organizing feature map network in iris
classification
Abstract:Taking the data set of iris as an example, the self-organizing feature mapping (SOFM) is used to cluster iris, and the four features of iris
are projected into the two-dimensional plane. At the same time, the correlation of the four features of iris data set input is analyzed, the highly
correlated features are deleted, the advantages and disadvantages of the self-organizing feature mapping neural network are analyzed, and the
perceptron is trained by two sets of feature input vectors Model. The experimental results show that the classification effect of the two features is
better than that of the four features. It provides a reference for the study of multi feature classification.
Keyword: self-organizing feature mapping neural network; iris; feature extraction;;perceptron
1 引言
分类判别是指根据事物的不同点加以区分辨别,确定事物所属的类别,使具有更多相似点的事物归为一类,同类之中呈现不易改变
的特点,依据这个特点,可以在大量事物中快速聚集同类事物。自组织特征映射网络在各个行业都有重要的应用,医学方面,例如正常肝
和脂肪肝的划分,脂肪肝是脂肪在肝脏中过度沉积引起的病变,对人的身体健康具有巨大的危害性。如果仅凭医生的肉眼辨别,这种经验
的,感性的认识常导致脂肪肝的误诊,如果能依据脂肪肝的特征对其进行归类,就可以及早发现,及早治疗
[1]
。在水质评价方面,利用 SOM
神经网络很强的自学习、自适应能力对水质状况进行评价,可以克服传统水质评价方法在处理非线性问题的实际困难。
[1]
鸢尾花的分类已
有一定的研究历史,也有非常非常多的分类方法。通过对此数据集的实验学习提出分类问题处理的一些细节改进,希望能对分类效率有提
高的地方。
2 数据集介绍
鸢尾是法国的国花,在我国有 60 多个品种。鸢尾花数据集即 iris 数据集,由 Fisher(1936)收集整理,是一类多重变量分析的简单
数据集,包含 150 个数据集,3 个类别,每类 50 个数据,共 4 个特征:花萼长度、宽度,花瓣长度、宽度。通过 4 个属性来预测鸢尾花是
属于维吉尼亚鸢尾、杂色鸢尾,还是山鸢尾这三类中的一种。数据集一般存储为二维表结构,如下表所示,单位是厘米。
表 1 鸢尾花数据集的四个特征的部分数据及人为添加的标签类别信息
Sepal length
Sepal width
Petal length
Petal width
Class label
5.1
3.5
1.4
0.2
1
4.9
3.0
1.4
0.2
1
…
…
…
…
数据集在数学上通常表示为{(x
1
,y
1
),(x
2
,y
2
),….,(x
i
,y
i
),…(x
m
,y
m
)}的形式,其中 x
i
为样本特征。由于样本一般有多个特征,因而
Xi={Xi
1
,Xi
2
,Xi
3
,Xi
4
,…Xi
N
}
T
,而 y
i
表示样本 i 的类别标签.这种向量的数据表示方式有利于对数据进行分类处理。
- 1
- 2
- 3
前往页