论文研究-基于核主元聚类的股票分类.pdf

所需积分/C币:9 2019-09-20 14:00:16 1.29MB .PDF
收藏 收藏
举报

论文研究-基于核主元聚类的股票分类.pdf,  为了正确区分不同的股票类别, 降低分类的复杂度,论文结合核主元分析和K均值聚类构造核主元聚类方法对上市公司股票进行了分类处理.在核主元聚类方法中, 首先对样本数据进行预处理,然后利用核主元分析以非线性方式降低数据的维数,再利用K均值聚类方法对降维后数据进行聚类,并最终得到不同的股票分类情况.选择了沪深股市中20支上市公司股票来进行实证分析.实证
第12期 余乐安,等:基于核主元聚类的股票分类 到特征空间H上,即:RN→HD,x→g(x),其中HD上的映射样本是假设已中心化了的,即存在 ∑()=0 由文献[6可知,样本相关系数矩阵就是变量数据的列向量经中心单位化之后的Gram矩阵,即 G=y(x;)(x) 核主元数据变换是一种非线性特征提取方法,它是在特征空间中对下面的Gram矩阵进行线性主元 分析.定义特征空间中的协方差矩阵为 ∑=(c)2T(x) 在特征空间进行线性主元分析,需要求C的特征值≥0及相应的特征向量V∈H{0},通过方程 AV=CV 由于V属于特征空间D的映射函数y(xn)(-1,2,…,m)的生成空间上,有 入y(xr)V=?(xr)CV,=1,2,…,n 由于特征值非零的特征向量都落在数据的张集上即V∈spum{y(x1),…,y(xn)},所以存在一组系数 a(2=1.…,n)使得 p( i) 合并式(3),式(5)和式(6),式(4)等价于 ∑a((ar)(x)=∑a(y2(ar)∑y(x)((a)(n) 引入n×n的点积核矩阵 K={Kn}=K(x,x)=((x)·gp(x7) (8) 则式(7)可以写成 Ka=m入a 其中,a-(a1,a2,…,an)T 由于差一个常系数n对求解特征向量没有影响,因此只要求出K的特征值和特征向量就可求出式(4) 的解 设核矩阵K的特征值为A1≥入2≥…≥A,相应的特征向量为a1,a2,…,an,通常,核矩阵K的特 征向量a归一化要通过协方差矩阵C的特征向量V归一化为单位长度来实现,即 V=1,l=1,2,……,q 其中假投特征值按照降序排列,且入为核矩阵K的最小非零特征值 由式(6)有V=a19(x),则vV=4(x2)aa9(x)=k(xm,x)ahat=ata;=1,即 7=1,2 (11) 式(11)为核矩阵K的特征向量a归一化表达式 在前面的分析中,已经假设训练样本数据在特征空间中满足式(1),即∑φ(x)=0.而在特征空间中要 满足式(1)是非常困难的为了放宽∑(x)=0的假设,根据文献(,引入矩阵表达式(n)x=1/m,将核 矩阵替换成下面的形式即可 K=K-Ink- KIn+InKIn (12) 其中In为(n×m)大小的短阵,元素值等于(1/m) 系统工程理论与实践 第29卷 对于测试样本数据的核主元提取,必须计算测试样本数据t在特征空间中的特征冋量Ⅴ方向上的投影 P(t),即 P)=W(t)=∑a(92()(t)=∑a,K(x2,t,l=1,2,…,q (13) 其中,向量t表示测试样本数据,α,表示核矩阵K的第l个特征值对应的特征向量at的第i个系数.式 (13)定义了在D维特征空间中的非线性主元同时,式(13)也描述了核主元分析用于特征抽取的过程.利 用训练样本数据{x;}=1求出核矩阵K的特征向量a后,可以实现任意测试样本数据的特征抽取 利用核主元分析提取的非线性主元,采用聚类算法可进行聚类分析.本文采用流行的k均值聚类(k means clustering)算法S来进行聚类分析.k均值聚类算法以k为参数,把M个对象分为k类,使得类内 具有较高的相似度,而类间的相似度较低,相似度的计算根据一个类中对象的平均值来进行. 给定个数据(x1,x2,…,xn),每个数据均有p个指标,经过核主元分析之后,d个非线性主元指标 被选择(a<p).基于核主元的k均值聚类单法是利用核主元分析选择的d个指标将m个数据划分为k类 (k<m)S一{S1,S2,…,Sk},并使得类内距离最小(一般的距离测量可采用欧氏距离和明氏距离等常用的距 离公式),如(14)式所示 E= arg llull>∑|x;-12 S 式中,E为聚类测度函数,μ是聚类S的均值.k均值聚类具有以下特点:各聚类本身尽可能的紧凑,而各 聚类之间尽可能的分开 2.3核主元聚类算法的实现步骤 根据22节的描述,核主元聚类算法的实丰阶段 主要步骤 算法操作细节 现步骙如图1所示.从图1可以容易看出,核 明确问题 针对具体问题,采集相关数据供具体分 主元聚类算法的实现可以分为3个主要阶段 收集数据 析之用 具体细化为9个主要步骤,如下所述 数据 处理 1.数据收集与预处理 数据预处理 对原始数据进行标准化变换,消除各个 明确问题,收集数据.针对貝体间题, 指标差异所带来的不可比较性 采集相关数据供具体分析之用.例如,用p个 原始指标对v个对象进行聚类评估,那么可用 核矩阵计算 利用核函数定义,计算去中心化或未去 屮心化的核矩阵K x;来表示第i个对象的第j个指标数据,用 矩阵表示就是X=(x)nxp 特征 2)数据预处理.这个步骤主要是对原始数 主元 特 征方程求解 利用线性代数求解特征方程,并对特征 向量a进行归一化处理 提取 据进行标准化变换.进行标准化变换的主要原 因是为了消除各个指标由于量纲单位不同或 非线性特征 计算样本数据在特征空间中的特征向量 者正、逆性指标不同所带来的不可比较性.假 主元提取 方向上的投影,获取非线性特征主元 设样本的均值与方差分别为m;和S2,那么原 始指标可用下面的公式进行标准化处理 初始聚类选择 从n个数据中随机选择k个对象作为初 始聚类中心 2,2=1,2 (15) 柜似度计算 刈剩下的每个对象,根据它们与这些聚 类中心的相似度,分配它们到特定聚类 其中,为样本均值.计算公式为 聚类 分析 =1,2,…,p) 新聚类 重新计算每个新聚类的聚类中心 中心计算 S为样本方差,计算公式为S= 元)/(7-1,(=1,2,,p) 聚类过程迭代 将聚类计算过程重复,直到标准测度函 数收敛 2.利用核主元分析,提取非线性特征主元 图1核主元聚类方法主要实现步骤 第12期 余乐安,等:基于核主元聚类的股票分类 3)计算核矩阵.对于给定的P维训练数据集{xz}=1:分别计算山公式(S)和(12)定义的核矩阵 4)特征方程求解利用线性代数求解特征方程(9),并对特征向量a进行归一化处理,即aa=3,l 1,2,…,q. 5)提取非线性主元令A1≥A2≥…≥An,对任意一个测试样本数据集t,利用公式(13)在特征空间 提取q(q<p)个非线性特征主元,从而测试集的维数从p减少到q 3.利用 K-means算法,实现聚类分析 6)初始聚类选择.从m个数据中随机选择k个对象作为初始聚类中心,每个对象代表一个类的初始平 均值. 7)相似度计算.对剩下的每个对象,根据它们与这些聚类中心的相似度(距离,分别将它们分配给与其 最相似的聚类 8)新聚类中心计算.重新计算每个新聚类的聚类中心,即该聚类中所有对象的平均值 9)聚类过程迭代将上述计算过程不断地重复,直到标准测度函数(14)收敛为止 3上市公司股票分类的实证分析 为了检验上述核主元聚类方法的分类效果,本文选择沪深股市中20个上市公司股票来进行实证分析 31研究样本与指标选择 为了检验核主元聚类分析方法的效果,本文从沪深两市随机选择20家上市公司(沪深两市各取10家公 司)作为分析的研究样本,对于已经退市的公司我们并不进行分析.为了方便起见,我们从沪市选择股票代码 处于6000006000公司,从深市选择股票代码处于0000010001公司.这里股票代码60000鲁 退市)和00003(T金田)属于已经退市的公司,故被剔除 为了对上市公司殷票进行分类,一般要求选择一些反映企业财务状况的典型指标来进行分析,现代财务 管理理论认为:企业的财务状况主要取决于企业的偿债能力、营运能力、盈利能力和成长能力.在美国的财 务学研充和实践中被广泛应用于财务状况分析的指标体系主要反映了上述的4个方面的财务情况在国内 1999年6月,财政部、国家经贸委、人事部、国家计委等四部委联合颁布了《国有资本金效绩评价规则》,其 中工商类企业效绩评价指标体系也反映了上述4个方面的财务情况.借鉴国内外两个财务体系,并根据上市 企业的财务特点特选定如下12个财务比率来构成财务状况分析的指标体系,其中资产负债率、流动比率 股东权益比率反映企业的偿债能力;每股净资产收益率、总资产周转率、应收咪款周转率反映企业的营运能 力;净利润率、净资产收益率、税前利润增长率反映企业的盈利能力;主营业务增长率、净利润增长率、总资 表1上市企业主要财务比率 序号财务比率 定义 1资产负债率 资产负债率=负债总额/产总额 2流动比率 流动比率一流动资产/流动负债 3东权益比率 股东权益比率=股东权益/总资产 4每股净资产收益率每股净资产收益率=(本期股东权益/本期总股本上期股东权论/上期总股本)/abs(上 期股东权益/上期总股本) 5总资产周转率 总资产周转率=主营业务收入/平均总资产 6应收帐款周转率应收帐款周转率=主营业务收入/平均应收帐款净额 7净利润率 净利润率一净利润/主营业务收入 8净资产收益率 净资产收益率=净利润/股东权益 9税前利润增长率税前利润增长率=(本期利润总额一上期利润总额)/abs(上期利润总额 10主营业务增长率主营业务增长率=(本期主营业务收入一上期主营业务收入)/上期主营业务收入 11净利润增长率 净利润增长率=(本期净利润-上期净利润)上期净利润 总资产增长率 总资产增长率=(本期总资产一上期总资产)上期总资产 系统工程理论与实践 第29卷 产增长率反陝全业的成长能力.具体指标与定义如表1所示.此外,本文采用2008年的财务数据作为分析 的基础,主要数据来源于金融界网站(htt;//wjj. com. cn/),金融界冈站不提供数据旳部分指标由网易财 经、新浪财经、和讯网等网站获取,原始数据如表2所示 表2上市公司原始财务数据(2008年) 股票股票资产流动股东每股净资总资产应收帐款净利净资产税前利润主营收入净利涧润总资产 代码名称负债率比率权益比产增长率周转率周转率润率收益率增长率增长率增长率增长率 600000浦发银行96.820.553.1813.300.036.2836.2130.0342253356127.6143.11 60001邯郸钢铁54.351.1545.651.641.42168.31.6149138.01426937.704.42 600003ST东北高21.9215078.080.340.14162511.692.28672510.5965.513.36 600004白云机场33.110.6066.894960.343.7215.938.31145913.6534.610.99 600005武钢股份62.200.4637.807331.06587.047071876-249235.41-20.411288 60006东风汽车47.5914152416211.0715082546.03336971835.538.25 600007中国国贸48.060.3551.945010.12142.1639.528.4016.671.2022.513.91 600008首创股份44.1812355.823.180.14134715.04556-189222.94-488812.41 600009上海机场28790.6471.215770.2040325667.0337616.5749.287.72 600010包钢股份67.310.9132.691.831.14112.032096.4127366481-47.3030.55 00000深发展A96540.223.466.880.042764.2337478.993429-76.833458 000002万科A67.441.7632.5631920.37458698412.65-127715.38-16.7419.12 000004*ST国农49.1813250.8215380.26709-2568-18.18154070820.02-1.18 000005世纪虽源45.860.4454.140.000.083859.661.10-517263.6486.43167 00006深振业A71.671.7428.3353.730.183145.8614.709.38364802241716.34 000007ST达声112260.46-12.2649.960.244795-3851-72.40-1293-14.20629.92-17.16 00008ST宝利米6.2887393.721.030.140.006.541.0449.0815.41-55.530.22 000009中国宝安59.0016841.006.740.49126369311.62-13.8048.43-13.024.19 000010SS华新64631.2335.3765330.49 1.7713.1640.7720136 78176.23-2932 000011s*ST物业72.9315527.070.830.319.241.581.72203058724135.9211.97 32数据预处理 根据23节的标准化处理法,我们对原始数据进行标准化变换,便可得到标准化数据.通过标准化处 理之后:标准化后的财务数据见表3 33核主元聚类分析 根据流行的股票分类,股票可以分成蓝筹股、绩优股、一般股和垃圾股四类,因此在聚类中聚类类别将 设置为4类,即k-4.利用标准化处理后的财务数据,根据2.3节描述的核主元聚类的算法步骤,借助于计算 软件 Matlab,便可得到核主元聚类分析的结果,如表4所示 从表4可以看到,核主元聚类分析结果十分符合股票的类别,邯郸钢铁、武钢股份、包钢股份等钢铁股 是典型的大盘蓝筹股,浦发银行、白云机场、中国国贸、深发展A和万科A是典型的绩优股,业绩优良.从 表2不难看出,浦发银行、白云机场、中国国贸等股票的各个财务指标均好于其他股票,业绩较为稳定.而 *ST国农、ST达声、ST宝利来、SST华新、S*ST物业等5支股票是典型的垃圾股,因为带有ST开头的 股票均是经过沪深证券交易所特别处理( Special trealinient)的股票,财务状况异常、业绩较差.而*ST则是 连缤三年亏损有退市风险而被特别处理股票.在上述结果中,值得注意的是ST东北高被划分为一般股类别, 可能是由于模型的误差所致 为了对比,本文也给出了利用原始数据获得聚类结果和利用线性主元!聚类分析获得的聚类结果,如表 5与表6所示注总这里线性主元分析( Principal component analysis,PCA)使用85%的信息作为保留主 元的决策依据,利用获取的线性主元来进行聚类分析 第12期 余乐安,等:基于核主元聚类的股票分类 表3标准化后的财务数据(2008年) 股票股票资产流动股东每股净资总资产应收帐款净利净资产税前利润主耆收入净利润总资产 代码名称负债率比率权益比产增长率周转率周转率润率收益率増长率增长增长率增长率 60000浦发银行1.52047-1.521.040.920.301.621.190.620.531.032.14 60000邯郸钢铁0.12-0140.120.522.420.070.370.020.370.810.01 600003ST东北高-1.380.061.380.460.660.290.210.100.740.830.190.22 60004白云机场0.95-0440.940670.180.300.460.180.280080.44048 600005式钢股份0.180520.180.771.560.530050.660.210.590.090.34 600000风汽车0.380010.380.161.580.290.310.070.320.720.000.91 600007中国国贸0.370.580.370.670.710.111.810.180.300.460.370.40 600008首创股份0.520.090.520.300.660.290.400.050.140.210.090.31 600009上海机场-1.11-0.421.110.700.510.301.010.120.370.300.090.03 600010包钢股份0.380.270.380.531.750.150.340.090.241.500.081.39 000001深发展A1.51-0.65-1.510.130.900.310.220.030.880.560.261.63 000002万科A0.380.200.380.990.100.240.110.380.060.030.120.71 000004*ST国农0.32-0040.320250370.30-1.93-1.050.090.280.350.49 00005世纪星源0.450.530.450.440.800.300.100.140.542.460.32070 000060深振业A0.50.190.551.970.564.170.390.230 0.510.040.05 00007ST达声2.120.522.121.800.420.242673571.510.943771 0000T宝利夹1.984071.980.490.660.310.080.160.510.030.13044 000中国宝安0.060.,160.060.140.190.290.060.330.070.990.140.18 000010SST华新0.280090.282.490.190.310.301.682.600.731.342.17 000011S*sT物业0.600.090.600.480.250.300.370.132.622.191.090.29 表4核主元聚类的股票分类结果 类别 蓝筹股 绩优股 般股 垃圾股 股票 邯郸钢铁、武钢股份、东浦发银行、白云机场、中ST东北高、首创股份、上*ST国农、ST达声、ST 名称 风汽车、包钢股份、中国国国贸、深发展A、万科海机场、世纪星源、深振宝利来、SST华新、S*ST 宝安 业A 物业 表5基于原始数据聚类的股票分类结果 类别 蓝筹股 绩优股 一般股 垃圾股 股票 邯郸钢铁、武钢股份、东浦发银行、深发展ST东北高、白云机场、中国国ST达声、中国宝安、SST 名称 风汽车、包钢股份、万科A、深振业A 贸、首创股份、上海机场、世纪华新、S*ST物业 A、*ST国农 星源、ST宝利来 表6基于线性主元聚类的没票分类结果 类别 蓝筹股 绩优股 般股 垃圾股 股 邯郸钢铁、武钢股份、东浦发银行、深发展ST东北高、白云机场、中国国ST达声、中国宝安、SST 名称 风汽车、包钢股份、万科A、深振业A 贸、首创股份、上海机场、世纪华新、S*ST物业 A、*ST国农 星源、ST宝利来 从表5与表6不难看出.基于原始数据和基于线性主元聚类分析的股票分类结果是相同的,这也说明 1)线性主元分析对」聚类结果的改善程度是无效的 2)在这些财务指标中存在些线性主元分析难以捕捉的非线性关系.因此,对于存在非线性关系的数据 要利用非线性的分析工具来进行聚类分析 另外.在利用财务信息进行股票分类过程中,对于利用线性主元聚类分析和非线性的核主元聚类分析在 系统工程理论与实践 第29卷 提高聚类效率上的作用也进行了对比,表7列出了不同聚类方法所需的CPU时间.此对比使用前面所列20 支股票为实验样本,算法运行平台为IBM笔记本T60, Intel双核CPU,主频1.6GHz, Windows Xp操作 系统,使用 Matlab2006a软件 表7不同聚类方法的计算时间对比 (单位:秒) 方法基于原始数据的聚类方法基于线性主元的聚类方法基于核主元的聚类方法去掉核主元分析步骤的聚类分析 2.0386 1.6655 2.2039 0.0264 从表7可以看到,利用原始数据聚类需用时2.0386秒,而进行线性特征主元抽取后的聚类仪需1655 秒,而经过非线性特征主元抽取后的聚类分析需用时2.2039秒,如果去掉核主元分析步骤,单纯用非线性特 征主元的聚类分析仅需0.0264秒,聚类效率有巨大提高.特别值得注意的是基于线性主元分析的聚类方法 虽然对于聚类结果没有改善,但是对于聚类效率还是有较大的改进.这也说明在聚类分析之前,进行特征抽 取是非常有必要的 然而,根据表4和表6结果的比较,在进行特征抽取时,应该注意数据特征变量之间的关系.如果数据 特征变量中仅存在线性关系,则可选择线性特征抽取方法如线性主元分析进行处理.如果数据特征变量之间 存在非线性关系,则宜使用非线性特征抽取方法如核主元分析进行处理.因此,在进行数据分析处理时,如果 不事先对数据特征变量进行关系分析而盲目应用特征抽取方法,可能得不到数据降维带来的效果 4结论 有效的投资组合通常是由高质量的股票所构成,而高质量的股票经常依赖股票的分类.为了对众多股票 进行正确分类,本文提出一种核主元聚类方法对上市公司股票进行了分类处理.在此方法中,本文首先对样 本数据进行预处理,然后利用核主元分析降低数据的维数,再利用K均值聚类方法对降维后数据进行聚类, 并最终得到不同的股票类别情况.为了检验该方法,本文使用沪深股市中20支股票来进行实证分析.研究 结果表明本文提出的核主元聚类方法能取得较好的分类结果:可为投资者选择高质量的股票来构建投资组 合提供重要的参考依据,具有较大的实用性和可操作性 参考文献 1]闵丹.自适应共振模型在股票分类中的应用[税务与经济,2006(3):5254. Min D. The application of art in the classification of security [J. Taxation and Economy, 2006 (3):52 54 2」张玉川,张作泉,黄珍.支持向量机在选择优质股票中的应用[统计与决策,2008(4):163-165. Zhang Y C, Zhang Z Q, Huang Z. The application of support vector machine in section of high-quality security Statistics and Decision, 2008(4):163-16 β3李云飞,惠晓峰.基于支持向量机的股票投资价值分类模型研究.中国软科学,2008(1):135-140. i Y F, Hui X F. The classification model for stock investment value based on SVMJ. China Soft Science 2008(1):135-140 4杨蒙召,赵春刚,顺泽元·基于PCA和 Rough Set在股票分类中的研究小科学技术与工程,2009(4):1092-1096 Yang M Z, Zhao C g, GuZY. Research of the stock classification based on the PCA and rough sel[J. Science Technology and Engineering, 2009(4): 1092-1096 ]狄明明,孙德山.聚类分析和支持向量机在股票研究中的应用[J].计算机技术与发展,209,19(6):229231 Di MM, Sun D S. The application of clustering analysis and support vector machines in stock market]. 2009, 19(6):229231 6 Scholkopf B Smola A, Muller K R. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation,1998,10(5):1299-1319 7 Vapnik V. The Nature of Statistical Learning Theory[M. New York: Springer, 1995 8 Ding C, He X. K-means clustering via principal component analysis[C]//Proceedings of the 2004 International Conference on Machine Learning, 2004: 225-232 9 Jolliffe I T. Principal Component Analysis[M]. Springer Series in Statistics, New York: Springer, 2002

...展开详情
试读 8P 论文研究-基于核主元聚类的股票分类.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img
    • 至尊王者

      成功上传501个资源即可获取

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于核主元聚类的股票分类.pdf 9积分/C币 立即下载
    1/8
    论文研究-基于核主元聚类的股票分类.pdf第1页
    论文研究-基于核主元聚类的股票分类.pdf第2页
    论文研究-基于核主元聚类的股票分类.pdf第3页

    试读已结束,剩余5页未读...

    9积分/C币 立即下载 >