论文研究-基于滑动窗口及局部特征的时间序列符号化方法.pdf

所需积分/C币:46 2019-07-22 23:58:18 1.18MB .PDF
300
收藏 收藏
举报

针对时间序列的数据挖掘将时间序列数据转换为离散的符号序列, 提出了一种基于滑动窗口及局部特征的时间序列符号化方法。该方法采用了滑动窗口的方法将时间序列分割, 每个分段采用多个斜率表示, 最后采用K-均值聚类算法对斜率表示的分段进行聚类, 实现时间序列的符号化。实验证明了该方法的有效性与准确性。
798 计算机应用研究 第30卷 在对分段进行聚类时釆用了K-均值聚类算法,而聚类算法存模式,使得结果更加准确。因此,本文提岀的SFSA方法能够 在结果向局部最优靠近的特点,所以会出现这样的现象。另包含更多的原始时间序列的信息,比SAX方法提供了更为全 外,迭代次数的増多同时影响着算法的运行效率,可以从上面面的描述信息,为后续的进一步的吋间序列数据挖掘提供∫可 知道迭代次数达到定的值后,结果将不再变化,所以迭代次靠的保证。 数并不是越大越好 此外,本文还比较了两种时间序列符号化方法在聚类方面 的效果,本文采用编辑距离进行相似性度量,这是因为该度量 40 后方式计算简单及快速。对于聚类准确率,利用聚类结果与原始 的数据所属的类别进行比较,从而得出本文提出的方法的聚类 159131721252933374145495357 171319253137434955 准确率。 (a)W=4, 1=40, Slope Num=2, S=4 (b)W=6, 1=40, Slope Num=2, SI=4 从数据集中每类随机抽15条吋间序列数据,随机分成 图4不同滑动窗大小的结果 组进行实验,实验结果如表1所示。 通过对比图4可以发现,在其他参数不变的情况下,滑动 表1两种算法的实验结果 窗口的大小影响了算法的准确性及压缩率。滑动窗口增大,压 聚类准率/% 平均消礼时间/ms 序号 缩率变高,但是相应的准确率下降;反之,滑动窗口减小,压缩 SAX SFSA SFSA 率降低,准确率变高。 90.10 340 3OMANA 123 310 85.67 91.04 MbMt 通过表1可以知道SFSA方法在准确性方面优于SAX方 17131925313743495 171319253137434955 法,这是由于SFSA方法较多地保留了原始时间序列的形态特 a)W=6, 1=40, Slope Num=2, s=4 (b)w=6, 1 =40, SlopeNum=3, S=4 征。然而,由于SSA方法采用了K-均值聚类算法对子时间序 图5不同斜率个数的结果 列进行聚类,运行时间方面多于SAX方法,但是在运行时间方 由图5分析可知,每个分段用较多的斜率表示,该算法的面仍然是能够接受的范围。 准确率提高了,即具有相同或相似的原始分段能够用更准确的 符号表示。但是该算法过多的斜率表示分段将导致算法复杂3结束语 性提高,运行效率降低,因此在准确率与效率之间,应该根据实 际情況设詈该参数。 本文提出了一种基于滑动窗∏及局部特征的时间序列符 综合分析上述内容,由于SFSA算法采用了K-均值聚类算 号化算法(SHSA),它利用滑动窗口算法实现时间序列的快速 法对原始时间序列的分段进行聚类,因北迭代次数Ⅰ以及符 分段,对于每个分段采用多个斜率表示后进行聚类,将每类标 集大小S是影响算法性能的主要指标。滑动窗口大小W以及 志相应的符号以实现时间序列的符号化。该方法不仅能够有 斜率个数 SlopeNum是影响算法准确性及压缩率的主要指标。 效地进行时间序列降维处理,而且能够休留更多的原始吋间序 列的形态特征,为时间序列的进步研究提供了更为可靠的符 2.3SFSA方法与SAX算法的对比 号化表示方法。实验证明了该方法的有效性和优越性,是一种 为了说明本文提出的方法的优点.本文选取经舆的时间序行之有效的符号化方法。 列符号化方法SAX方法与木文提出的方法进行对比实验,比参考文献 较任的一条吋间序列。SFSA方法设置W-4,=40,Sore[1LNJ, KEOGILE, LONARDI S,etu. A symbolic representation of Num=2,|S|=6;SAX方法设置W=4,|S=6|,结果如图6所 time series, with implications for streaming algorithms L C]//Proc of e 8th ACM SIGMoD Workshop on Research Issues in Dala Mining and Knowledge Disco-very. San Diego: ACM Press, 2003: 2-11 A.AAMAWAt o, MMN [2』钟清流,蔡自兴.基于统计特征的时序数据符号化算法[J].计 算机学报,2008,31(10):1857 [3 GAUTAM D, DAVID L, HEIKKI M, et al. Rule discovery from time 01591317212529337145495357-2.5 series[C]//Proc of the 4th Annual Conference on Knowledge Disce (a)原始时间序列 (b)标准化后的时间序列 very and Data Mining. 1998: 16-22 [4 LI Bin, TAN Li-xiang, ZHANG Jin-song, et al. Using fuzzy neural network clustering algorithm in the symbolization of time series[ C1// Proc of IEEe Asia-Pacific Conference on Circuits and System. 2000 1591317212529333741454535 [5 SANGHYUN P,, WESLEY W C, JEEHEE Y, et al. Efficient searches (c)SAX方法表示 (d)SFSA方法表示 for similar subsequences of different lengths in sequence databas 图6SFSA与SAX方法的对比 [CI//Proc of the 16th International Conference on Data Engineering. 通过分析图6(c)(d)可知,SAX方法采用PAA的近似表 Washington DC: IEEE Computer Society. 2009: 23-32 示方法,用平均值来表示每个分段,忽略了原始时间序列原6蔣嵘数,基于形态表示的时间序列相似性搜索J.计算机研究 有的局部特征信息,只能近似地描述时间序列大致特征;本文 与发展,2000,37(5):601-608 提出的方法能够有效降维,同时考虑到了原始时间序列的局部[7]ⅹIABB. Similarity search in time series datasets[D]·[S.L]:s mon Fraser University, 199 特征,利用斜率来表示分段能够尽可能地保留原始时间序列[8』陈湘涛,李明亮,陈玉娟。基于分割模式的时序列矢量符号化 的信息,该方法使得每个符号代表了原始时间序列的一个形态 算法J.计算机工程,2011,37(4):55-57

...展开详情
试读 3P 论文研究-基于滑动窗口及局部特征的时间序列符号化方法.pdf
立即下载
限时抽奖 低至0.43元/次
身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于滑动窗口及局部特征的时间序列符号化方法.pdf 46积分/C币 立即下载
1/3
论文研究-基于滑动窗口及局部特征的时间序列符号化方法.pdf第1页

试读结束, 可继续阅读

46积分/C币 立即下载