基于高阶奇异值分解的手写数字分类资源-CSDN文库

需积分: 22 50 浏览量 2018-12-12 21:45:09 上传评论收藏 1.07MB DOC 举报

资源推荐

资源详情

资源评论

基于高阶奇异值分解的手写数字分类

摘要

在这篇文章中，我们提出了两个基于高阶奇异值分解（HOSVD）的手写数字分类的

算法。第一个算法用 HOSVD 进行类模型的建立，使得分类结果的错误率小于 6%。第二

种算法用 HOSVD 同时在两个模型中进行张量近似。第二种算法在把原始数据减少约 98%

后，仍然使分类的错误率小于 5%。两种算法在进行分类的检验阶段，都是通过一系列最

小方差来实现分类的。从计算量的角度考虑，第二种算法是第一种算法效率的两倍。

1、简介

手写数字的自动分类常被看是一个标准的模式识别问题，它包含了这一领域的很多难

点。由于同一类中各个对象之间的变化非常大，同时不同类之间的对象有非常相似，所以

把一个未知的数据划分到十个确定类别中的某一个是一个非常困难的过程。

解决这一问题有许多不同的方法，例如：主成分分析法（ PCA）、支持向量法

（SVM）、最邻近法和 k-临近法，回归、统计模型和神经网络等。关于不同模式识别方法

的研究可以再参考文献[1,2]中查阅。对于手写数字分类的不同算法的比较可以在参考文献

[3]中找到。其中，表现最好的算法是基于神经网络和在局部仿射变换下测量不变性的正切

距离方法来实现的。其他算法可以再参考文献[6,7,8]中查阅。通常，表现好的算法表述比

较复杂或者计算量非常的。

在这篇文章中，我们提出了两种结果很好，同时比较简单、高效的算法。这两种算法

都是基于对张量的 HOSVD。第一种算法通过 HOSVD 计算得到每一个类的一个小的基矩阵的

集合，这个集合包含了这个类中所有数据的主要的子空间。这些子空间然后用来描述未知

的数据。这个算法和 SIMCA、PCA 比较类似。第二种算法使用 HOSVD 对训练集合进行压缩。

每个类的模型都是通过压缩的训练集合建立的，分类的过程和第一个算法相同。它的优点

有两个：一个是各个类的模型的描述需要的内存更少，另一个是在结果没有变差的情况下

算法更加高效。这个算法即使在训练集合压缩 98%后仍然能使分类的错误率小于 5%。

近年来，应用张量方法解决问题在模式识别和其他各个领域引起了越来越多的关注。

我们所说的张量是指多维的或多模的数组。通常，数据是一种多维的结构，把它们存储在

矩阵或者向量中不是很合理。一个简单的例子就是一组时间序列的图像。每一幅图像都是

一个二维的数据数组，把不同时间序列的图像放在一起共同构成了一个张量。通常，这种

方法有利于在存储数据的过程中不破坏内在的多维间的结构。张量方法在化学测量和心理

测量已经应用了很长时间。最近，HOSVD 已经应用到人脸识别。

在这篇文章中，我们使用 USPS 数据库中的手写数字对我们提出的算法进行测试。这些

数字是从信封上扫描的到的大小为 16 16 的灰度图像。这个数据库被广泛应用到分类算分

的测评中。

这篇文章后面的部分是这样安排的：第二部分包含张量概念的介绍以及一些本文提出

剩余15页未读，继续阅读

内容反馈

dlkangcy

粉丝: 2
资源: 18

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip