分类
一、前言
在分类之前,首要的任务就是确定标签。下图是数据的第一列的散点图,看
见第一列即为分类标签,分别是 0~9 这是个整数。
图 1 数据标签值的探究
在具体分类之前,我首先了解了一下数据结。一共有 2007 行训练例子,256
个维度。对于维度比较大的数据,在分类之前降低维度是十分有意义的。在降低
数据集维度的同时,保证其中包含的主要信息是相似的。一方面,降低维度,能
进行数据压缩,减少数据存储所需空间,另一方面,也能减少计算所需时间。维
度少则计算量减少,还可以使用一些不适合对高纬度数据使用的算法。此外,也
有助于去除噪声,提高模型性能。去除了不必要的冗余特征,将数据维度减少到
2 维或者 3 维,进行可视化。
降低数据维度的算法有很多中,其中主成分分析算法是一常用的降低数据维
度算法。其核心思想是将 n 维特征映射到 k 维上(k < n),将这 k 维成为主元,
是重新构造出来的 k 维特征(如下图所示)。