基于斜率表示的时间序列相似性度量方法

所需积分/C币:43 2014-08-10 16:47:40 263KB PDF
52
收藏 收藏
举报

时间序列数据挖掘中数据处理的一种方法,对时间序列进行相似性度量。
2期 张建业等:基于斜率表示的时间序列相似性度量方法 273 LKA-KB (7)4实例 右式=Dk(A,C)+Dk(B,C) =I (t:t-1(KA-Ko)/tI+ 从通用性角度考虑,实验数据来自1986年6月 ∑(t;-t)(KB-Kc)/tn 6日以后的3种股票指数: HongKong( Hang Seng) oc Ka-Kc|+l I (8)第4组,作为序列S1; New York(s8P500)第6组, (1)当KA>>Kc,KB>KC时, 作为序列S2; Paris(CAC40)第8组,作为序列S3 式(8)=KA+KB-2Kc, 每组数据取前2800个,各序列原始曲线如图2所 式(7)≤KA+K-2Kc, 均成立 (2)当KA>Kc,KB<Kc时, 4000 式(8)=K4一K,式(7)-KA-KB 2000 成立 f0010001500200025 同理,其它情况均可得证.在证明过程中使用的 (a)s 符号“∝”表示“正比于”,即符号c两侧只相差一个 不依赖于其余变量的因子 4000 3.3斜率距离分枥 30000 20000 具体来看,由式(5)知,当Dk(S,S")=0时两 5001000150020002500t/s 个序列完全相似,实际上这种情况出现的概率很低, 或者说不存在.只能用 linK(S,S)=0来表示相 (b)S2 似程度,越接近0,表明两序列越相似.然而定义序 列相似时Dk(S',S)的取值范围,则需要根据实际 1000 应用场合进行大量实验才能确定 200 05001000150020002500s (c)S3 图23种股票指数序列的曲线图 Fig 2 Curve af 3 stock index series 4 从图2可直接判断,S1与S3相似.将上述数据 分别分为10段、20段、50段,用斜率距离算法进行 图12个时间序列的时间对等过程 计算,结果如表1所示.采用相同分段数,使用模式 Equal division in 2 time series 距离的计算结果如表2所示 般情况下,两个序列在分段直线化以后各极 值点对应的时间不会完全一致,长度也不尽相同,必 表1不同分段时的斜率距离 Table 1 Slope distance in different PLR 頒进行时间对等过程才能使用这种算法.以图1为 段型 Dk( )D(S1,S3)D(S2,S3) 例,时间对等过程就是按照序列的极值点重新划分 l246 9 直线区间,使序列能够等长,符合算法要求如 l.7182 S′={(k'1,t3),(k2,t),(k3,t)},(9) 50 42.6317 3,4124 42.7788 (k1,t2),(k"2,t5),(k",t6)}.(10) 进行时间对等过程以后,2个时间序列表示为 可见,无论分段数量多少,使用斜率距离得到的 s={(k1;e2),(k1,t3),(k2,),(3,t),(k3,n)},结论是一致的,即S1与S距离最短,表明两个序列 相似,与人工判断的结果完全吻合.而由于模式距离 S"={(k"1,t2),(k"2,l3),(k2,),(足"2,t),(k。,6)} 使用上升、保持、下降这些粗糙的模式进行计算,在 (12) 分段数较少时结论明显不合理.从表1还可以看到, 1994-2012ChinaACadcmicJournalElcctronicPublishingHousc.Allrightsrescrved.http://www.cnki.nct 274 模式识别与人工智能 由于采用PR方法,斜率距离算法仍然具有多分辨 参考文献 率特性.当然,随着分段量的增加,距离值单调增加, 这也是显而易见的 [1] Pavlidis T, Horowitzs S I, Segmentation of Plane Curves. EEE Trans ion,1974,23(8):850-870 [2 Lee S, Kwon D, Lee S. Min 表2使用模式距离计算结果 Series Data. Journal of Systems and Software, 2004, 69(1/2) Table 2 Results by pattern distar l05-113 段数S1与S S1与S3 S2与S 3] Goldina D Q, Millstcinb T D, Kutlua A. Bounded Similarity 10 0.358 0.724 0,628 Querying for Time-Series Data. Information and Computation 823 0,942 2004,194(2):203-211 50 0,427 0.413 [4 Keogh E J. Efficiently Finding Arbitrarily Scaled Patterns in Massive Time Series Databases Proc of the 7th European Conference on Principles and Practice of Knowledge Discovery 5结束语 in Databases. Cavtat-Dubrovnik, Croatia, 2003: 253-26 [5] Vachos M, Kollios G, Gunopulos D. Discovering Similar Multidi 利用斜率距离计算时间序列相似性程度具有许 mensional Trajectories// Proc of the 18th International Conference 多显著优点,如对于数据的大小不敏感,而更强调曲 on Data engineering. San Jose, USA, 2002: 673-684 L6 YiB K, Faloutsos C. Fast Time Sequence Indexing for Arbi 线形状的相似性;物理概念更为明确,且算法简洁高 trary Lp Norms//Proc of the 26th International Conference on 效;对于异常数据,则表现为斜率的突变,因而可用 ery large Databases. Cairo, egypt 2000: 385-394 于异常模式发现等.尤论是模式距离,还是斜率距7] Wang da, Rong gang. Pattern Distance of Time Series. Journal 离,由于采用分段直线化方法,因而具有多分辨率特 of Zhejiang University: Engineering Science, 2004, 38(7):795 性,虽然为数据挖掘提供了新的属性,但距离阈值难 王达,荣冈时间序列的模式距离.浙江大学学报:工学版 以直接给出,需要在T程应用时进行实验才能确定 2004,38(7):795-798) 1994-2012ChinaACadcmicJournalElcctronicPublishingHousc.Allrightsrescrved.http://www.cnki.nct

...展开详情
试读 4P 基于斜率表示的时间序列相似性度量方法
立即下载
限时抽奖 低至0.43元/次
身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
上传资源赚钱or赚积分
最新推荐
基于斜率表示的时间序列相似性度量方法 43积分/C币 立即下载
1/4
基于斜率表示的时间序列相似性度量方法第1页

试读结束, 可继续读1页

43积分/C币 立即下载