论文研究-一种基于趋势分形维数的股指时间序列相似性分析方法.pdf

所需积分/C币:12 2019-09-20 17:15:15 716KB .PDF

论文研究-一种基于趋势分形维数的股指时间序列相似性分析方法.pdf,  为了提高股指时间序列相似性分析的准确性, 提出趋势分形维数的概念, 并基于此定义了相似性分析方法. 趋势分形维数包含阳线维和阴线维, 能更好地反映市场跌涨变化趋势, 基于该维数的相似性度量方法能够提高相似性度量的准确性. 通过与其他两种相似性度量方法对比, 进一步说明该方法的优越性.
1902 系统工程理论与实践 第32卷 海岸线分形维数计算.只是在计算时间序列曲线长度时,测量的是其曲线在纵轴上的投影长度,相应的算法 步骤可以表示如下 Step1假设用单位尺度(纵轴上以单位长度为基准,横轴以某一时间尺度为基准,可以为H或小时、分 钟等)测量时间序列曲线的长度,整个时间序列的长度即为测量尺度范围内价格序列变化的长度之和可以 表示成(Y)=∑t=0(max{mr(t+1),x(+)}-mn{r(t+1),mr(t)}),其中t为时间点,m为时间序列的长度 step2扩大测量尺度,假设测量尺度扩大R倍,此时测量时间曲线纵轴长度的基准尺度亦扩大为原来 的R倍,则在该测量尺度下整个时间序列的长度可以表示成 L(Y)=2t=0x长1xh1((1)}-x≤xt+h{2() maX 其中(m+1)=m-1 Step3不断变换R,得到一系列的L(YF),绘制log(F)~log(L(YP)图,如果点对基本能拟合在一条 直线上则说明具有分形特征.取曲线上的直线段,直线段斜率的相反数即为时间序列曲线的分形维数 参照上述步骤,定义相应的阳线维或阴线维计算方法.阳线维考虑曲线内的上升趋势段,即在某一测量 时间尺度下,结束时刻点的价格高于开始时刻点的价格.其曲线总长度可以定义为公式(21) T ndX R×t≤iR×t+R {x(i)}- Rxt<i<R+{x()},若x(Bxt+B>(R×t) (21) 其它 相应地,阴线维考虑曲线内的下降趋势段,即在某一测量尺度下,结束时刻点的价格低于开始时刻点的 价格其曲线的总长度可以定义成公式(2.2) xsx+{r(})- Ki<R+r{x(i)},若m(R×t+R)<(R×t) (2.2) 0. 其它 以图2为例,说明传统分形维数和趋势分形维数在计算上的差异.图2中假设时间序列的总长度为20, R=4,即当前的测量尺度扩大4倍.则传统分形维数中,L(YR)的计算公式为L(YR) 计算阳线 分形维数时只考虑测量尺度下结束点价格高于起始点价格的曲线段长度,即L(Yn)=2+44.计算阴线 分形维数时只考虑测量尺度下结束点价格低于起始点价格的曲线段长度,即I(Yn)=2+2 2120 2110 LA(O) 2080 200 060 x(19) 图2R=4时金融时间序列曲线长度的计算示意图 根据上述算法步骤,我们得到图1中所示的两段时间序列分形维数值,其结果如表1所示 第9期 倪丽萍,等:一种基于趋势分形维数的股指时间序列相似性分析方法 1903 表1两段时间序列分形维数值 fd corr fd corr corr 序列11.26460.99971.52360.98751.16600.9992 序列2126770.99971.15340.99941.59480.9894 表1中∫d为将金融时间序列作为一个整体所得到的传统分形维数值而fdn、fdn分别为阳线维和阴 线维,corr为直线拟合优度.直线拟合优度接近1,可见具有明显分形特征.从分形维数的值可以看出,当金 融时间序列表现为上涨趋势时,其阴线分形维数值明显高于传统分形维数,而序列处于下跌趋势时,该值要 低于传统分形维数.对于阳线分形维数来说,上述规则刚好相反.可见阳线维或阴线维能够较好地反映出市 场的跌涨趋势.对于一元金融时间序列而言,趋势分形维数的值一般介于1-2之间. 由于在实际中股价通常由K-线表示.K-线由四个价格组成分別为最高价、最低价、开盘价、收盘价. 如图3所示.图中每根K-线代表一日股价运行情况.其中包含实心矩形的K-线也称之为阴线,代表该时间 段内收盘价低于开盘价,即矩形的上端为该时间段的开盘价,卜端为该时间段的收盘价.包含空心矩形的K 线称为阳线,表示收盘价高于开盘价,即矩形的上端为收盘价,下端为开盘价.矩形上部直线为上影线,其高 点表示该时间段内的最高价,矩形下部直线为下影线,其低点表示该时间段内的最低价 9/170809/23/08 10/0708 10/1408 1028/08 1/04/08 图3上证指数日K-线图 从K-线形态上看,其在不同时间尺度下呈现出自相似性.且忽略K-线的影线部分,这种相似性仍然存 在因而利用上述特性我们在计算股指时间序列K-线趋势分形维数时.可将计算过程进行简化,即在计算时 忽略影线部分,这样K-线可以看作是一条一元时间序列这条时间序列由开盘价和收盘价组成,股指时间序 列可以表示成y={00,Co,……,O,C,…,Oa-1,Cn-1}.其中O表示第讠天的开盘价,C表示第天的收 盘价用K-线实体部分的长度近似K-线整体的长度,公式(21)和(22)可以变换成公式(2,3)和(2.4) R×t+-1 若 CRXtIR 0, 其它 (23) M. =I ICRX1+R-1-ORxtI, E CRX+R-1ORXE 2,4 0. 其它 公式(2.3)和(2.4)的计算结果是对式(2.1)和式(2.2)计算结果的近似在K-线样本数足够大的情况 下,两者的计算结果基本相同,所得到的阳线维或阴线维依然符合上述规律 3相似性度量方法的设计 31基于趋势分形维数的相似性度量方法 利用趋势分形维数进行相似性度量时首先对股指时间序列进行分割利用股指K-线趋势分形维数(阴 线或阳线维)对分割后的每段进行表示这样每一个股指序列可以表示成一组较短的数值序列,利用欧氏距 离度量不同股指序列的相似性.具体步骤如下 1904 系统工程理论与实践 第32卷 step1采用等宽无重叠窗口方式对不同的股指时间序列进行分割,设窗口大小δ取值为10.即将时间 域分割成一个个长度为10的窗口 Step2利用趋势分形维数对分割的每段进行表示 Step3利用K- means算法对表示后的不同股指序列进行聚类 假设一股指时间序列ⅹ,其时间跨度为N日.为了计算痄确,我们取股指序列的15分钟K-线数据,在 10日内可以得到充足的数据来计算趋势分形维数.分段后,假设利用阴线维数进行表示,则原始时间序列可 以描述成X={fdn1,fdn2,…,fdnm.其中fdn为阴线分形维数,m=「1·这样股指时间序列X可以由 一个m维的点描述,大大约简了时间序列的长度 经过分段、表示后,两个不同的股指序列X、Y之间的距离可以用公式(3.1)进行表示 d(a y 32实验方案设计 为了说明基于趋势分形维数相似性度量方法的优劣,首先对以下3种相似性度量方法进行分析.这3种 方法如表2所示 表23种相似性度量方法 数据预处理时间序列分割方式 时问序列表示方式 相似性度量公式 方法1无 等宽无重叠窗∏,窗∏大小为10线分形维数 欧氏距离 方法2无 等宽无重叠窗口,窗口大小为10传统分形维数 欧氏距离 方法3归一化 等宽无重叠窗口,窗口大小为10该窗口内股指收盘价的平均值欧氏距离 由于方法1和方法2中均利用分形维数对时间序列进行表示,其值介于1-2之间,因而能够将波幅不同 的股指序列归一化到同一区间,不需要进行额外的预处理操作.而利用方法3,为了消除股指序列间波幅的 不同,通常需要进行预处理即归一化操作,文中归一化公式如公式(3.2). r- Min value 9- Max value min value (32) 其中 Min value为样本最小值, Max value为样本最大值 为方便分析,引入如图4所示的时间序列 原始胺指存列 口字列2 图4一段股指序列图 图4中原始的股指序列为兴业银行2011年1月14日至2011年7月14日的日价格序列序列1与原 始序列基本相同只是小幅调整了其最大值和最小值附近的数据,改变了其最大、最小值.序列2与原始股 指序列趋势完全相反,来源于原始序列的镜像 表3方法1与方法3的区别 分段1分段2分段3分段4分段5分段6分段7分段8分段9分段10分段11分段12 方法3距离0.1220.1220.1190.1220.1220.0110.1220.1220.1220.0850.0950.123 方法1距离0 0 0 0 0 0 0 0 0.03830.01980 第9期 倪丽萍,等:一种基于趋势分形维数的股指时间序列相似性分析方法 1905 从相似性角度来说,序列1与原序列相似.用方法1和方法3计算序列1和原序列之间的相似度.将序 列按照等宽无重叠窗口划分(窗口大小为10),共分为12段.利用方法3计算时每一分段之间的距离都会发 生变化,而采用方法1则只有两段间的距离发生了变化,如表3所示.这是因为采用方法3时股指序列局部 波幅发生的小变化导致了各窗口段均值相对于整体的比例都发生变化.因而一条时间序列,在其局部存在较 大波动囁度的情况下,采用方法3很可能会影响分类结果 序列2与原序列不相似,用方法1和方法2计算两者之间的相似度.根据2.2节的计算方法,利用方法 2得到的结果是两序列的距离为0,即两者完全相似,而利用本文方法则可以很好地区分这两条序列 由此,我们可以得出如下结论,利用方法3进行相似性计算,步骤简单对数据点数量要求不高,但是其准 确度受到序列波动幅度情况以及归一化计算的影响.方法2利用传统分形维数对序列进行表示,能体现序列 的分形特征但不能反映序列的跌涨变化.而本文方法克服了以上缺点,它不仅能够反映序列的趺涨趋势而且 不受序列波动幅度的影响 为进一步说明,设计以下方案:分别采用表2中的3种相似性度量方法,用K- means算法对表4中所列 的上证、深成行业综合股指时间序列(2009年7月23日至2010年7月30日)进行聚类.根据聚类准确度 判断相似性度量方法的优劣 表4股指时间序列 食品饮料指数(399131) 水电煤气指数(399140) 信息技术行业指数(00009 上证电信业务行业指数(000040)医药卫生行业指数(00037)房地产业指数(399200) 金属非金属指数(399137) 原材料行业指数(0003)信息技术指数(399170) 金融保险指数(399190) 采掘业指数(399120) 公用事业行业指数(000041) 金融地产行业指数(000038) 医药生物指数(399139) 主要消费行业指数(0006 能源行业指数(000032 电子指数(399136) K- means算法是一种基于划分的聚类算法,K是指定的聚类个数它的基本思想是首先随机选择任意K 个样本点作为初始聚类中心,然后再将剩下的点根据与聚类中心的距离大小分配到不同的类中,并重新计算 新类的聚类中心.重复上述过程直到中心点不再发生变化,或迭代次数超过设定的最大迭代次数.在本文的 实验中所选择的考察对象为表4中所列的行业综合指数,由行业内具有代表性的股票加权得到,因此含有 类似行业成分股的综合股指其走势应当是相似的根据这样的原则,通过分析表4中的上证、深成行业综合 股指,可将其事先分为7类,具体的分类结果见附录A.据此 K-means算法中设置K为7 表5方法1所得的聚类结果 类别股指名称 食品饮料指数 金融保险指数、金融地产行业指数 电子指数、信息技术行业指数、信息技术指数、上证电信业务行业指数 4水电煤气指数、主要消费行业指数、公月事业行业指数 医药生物指数、医药卫生行业指数 6金属非金属指数、房地产业指数 采掘业指数、原材料行业指数、能源行业指数 表6方法2所得的聚类结果 类别股指名称 1食品饮料指数、信息技术行业指数 金融保险指数 信息技术指数 4 水电烘气指数、房地产业指数 5医药生物指数、医药生行业指数 金属非金属指数、主要消费行业指数、金融地产行业指数、上证电信业务行业指数、 公用事业行业指数、电子指数 7采掘业指数、原材料行业指数、能源行业指数 1906 系统工程理论与实践 第32卷 4实验结果分析 根据上述实验方案,利用3种不同的相似性度量方法分别得到如表5、表6和表7所示的聚类结果 表7方法3所得的聚类结果 类别股指名称 食品饮料指数、主要消费行业指数 1234567 金融保险指数 电子指数、信息技术行业指数,信息技术指数 水电煤气指数 医药生物指数、医药卫生行业指数 金属非金属指数、房地产业指数、上证电信业务行业指数、公用事业行业指数 金融地产行业指数、原材料行业指数 采掘业指数、能源行业指数 由在三种广案中均使用了K- means算法,根据文献8]可知,可以利用公式(33)评判聚类准确度,从 而衡量所用相似性度量方法的优劣 Sm(c;,c1)=2 (maxSim(ci, C) C= (33) k 其中c=c1,c,…,c为每种方案的聚类结果,c=c1,c2,…,ck为所认定的标准聚类结果.k为聚类个数 结果越接近于1说明所采用的方法效果越好.根据公式(3.3)和附录A中的分类,我们得到如表8所示的结 果(于公式(3.3)可能是非对称的所以我们对Sim(c,c)和Sim(c,c)都进行了计算) 表83种方法对比结果 方 m(cc 0.7952 0.7952 0.5857 0.5857 0.7891 0.7891 从表8中可以看出方法1得到的结果最好.实验结果表明趋势分形维数具有较强的市场指示作用,基于 趋势分形维数的股指时间序列相似性分析方法相较于其他两种方法具有一定的优越性. 5总结与展望 本文针对股指序列的特点提岀了一种趋势分形维数的概念,并基于趋势分形维数定义了一种相似性度量 方法.相关实验表明趋势分形维数在表示股指时间序列时具有一定的优势,它不仅能够将不同波幅的时间序 列归化到统一区间,而且能够很好地表征股指序列的趺涨趋势变化情况.因而,基于趋势分形维数的股指 相似性分析方法具有较好的性能.进一步的研究工作包括扩大实验数据样本、定义更加有效的时间序列分段 方法及相似性评价方法 参考文献 1 Fu T. A revicw on timc scrics data mining. Enginccring Applications of Artificial Intelligence, 2011, 24: 164 181 2]崔靖,赵秀娟,宋吟秋.中日股价序列相似性的比较分析.系统「程理论与实践,2009,29(12):125-133 Cuij, Zhao X J, Song Y Q Similarity analysis on China's and Japan's security price series[]. Systems Engineering Theory Practice, 2009, 29(12 125-133 3]刘威,邵良杉,曾繁慧,等.基于SAX方法的股票时间序列数据相似性度量方法研究门计算机工程与科学,2009,31(9): 115-118 Liu w, Shao L S, Zeng F H, et al. Research on the stock time series data similarity based on SAX[J. Computer Engineering and Science, 2009. 31(9): 115-118 第9期 倪丽萍,等:一种基于趋势分形维数的股指时间序列相似性分析方法 1907 4 Dattasharma A, Tripathi P K, Gangadharpalli S Identifying stock similarity bascd on cpisodc distances[Cl// 1lth International Conference on Computer and Information Technology, Khulna, 2008: 28-30 5 Dong X L, GuC K, Wang Z O. Research on shape-based time series similarity measure[Cl// Proceedings of the Fifth International Conference on Machine Learning and Cybernetics, Dalian, 2006: 1253-1258 6 Fu T, Chung F L, Luk R, et al. Representing financial time series based on data point importance J. Engineering Applications of Artificial Intelligence, 2008, 21: 277-300 7 Zhang Z, LiuX Y, Wang H Q. Discovery in stock time series based on perceptually important point algorithm[Cl// Proceedings of International Systems Conference, San Diego, La, USA, 2006 3 Gavrilov M, Anguelov D, Indyk P, et al. Mining the stock market: Which measure is best? [Cl//Proceedings of the Kdn). boston Ma.USA. 2000: 487--496 ⑨]黄超.基于特征分析的金融时间序列挖掘若干关键问题研究[D].上海:复旦大学,2005. Luang C. Research on several key issues in financial time series mining based on feature analysis D. Shanghai Fudan University, 2005. 10王阅,高东学.基于重标极差分析的时间序列分割方法J.计算机工程与应用,2008,44:223-225 Wang Y, Gao D X. Segmentation for time series data based on R/S analysisJ. Computer Engineering and Applications, 2008, 44: 223-225 1l Sun Y M. A high-precision approach for effective fractal-based similarity search of stochastic non-stationary time scrics[C//7th Intcrnational Confcrcncc on Machinc Lcarning and Cybernctics, Kunming, 2008: 136-141 12]黄诒蓉.中国股市分形结构:理论与实证[M].广州:中大学出版社,2006 Huang Y R. Fractal Structure of China's Stock Markets: Theory Practice[M. Guangzhou: Sun Yat-sen University Press, 2006 13]范英,魏鸣.基于R/S分析的中国股票市场分形特征研究J.系统工程,2004,22(11):46-51 Fan Y, Wei Y M. R/S analysis based study on fractals in China's stock markets J. Systems Engineering, 2004, 22(11):46-51 14曾振.股市行情软件里分形维数的求解算法和实现[小广州航海肓等专科学校学报,2008,16(2):3639. Zeng Z. AlgorithIn and realization of fractal dimensions onl the stock narket softwareJ. Journal of guangzhou Ma.ritime College, 2008, 16(2 36-39 15 Paramanathan P, Uthayakumar R. Dctccting patterns in irregular timc scrics with fractal dimension Cl// Intor national Conference on Computational Intelligence and Multimedia Application, Sivakasi, 2007: 323-327. 附录A 17个行业综合股指分类 类别类成员 说明 1 食品饮料指数(399131)、主要消费行业指数(0000360 成份股主要为食品、饮料(酒)等, 含有少量医药股 金融保险指数(399190)、金融地产行业指数(000089) 成份股主要为银行、证券、地产 房地产业指数(399200) 电子指数(399136)、信息技术指数(399170)、 成分股主要为电子、信息、软件 信息技术行业指数(00009)、上证电信业务行业指数(000040) 水电煤气指数(399140)、公用事业行业指数(000041) 成分股主要为水、电、煤、气 金属非金属指数(399137)、原材料行业指数(00003 成分股主要为钢铁、有色、水泥、 玻璃、其他(非金禹矿、少量金属制品 6 采掘业指数(399120)、能源行业指数(000032 成份股主要为石油、煤炭等 7医药生物指数(399139)、医药上生行业指数(000037) 成分股主要为医药类

...展开详情
试读 8P 论文研究-一种基于趋势分形维数的股指时间序列相似性分析方法.pdf
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-一种基于趋势分形维数的股指时间序列相似性分析方法.pdf 12积分/C币 立即下载
    1/8
    论文研究-一种基于趋势分形维数的股指时间序列相似性分析方法.pdf第1页
    论文研究-一种基于趋势分形维数的股指时间序列相似性分析方法.pdf第2页
    论文研究-一种基于趋势分形维数的股指时间序列相似性分析方法.pdf第3页

    试读已结束,剩余5页未读...

    12积分/C币 立即下载 >