没有合适的资源?快使用搜索试试~ 我知道了~
在线分割时间序列数据.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 188 浏览量
2022-02-05
10:27:08
上传
评论
收藏 544KB PDF 举报
温馨提示
时间序列分析是数据分析领域中的一个重要分支,特别是在大数据和实时监控的背景下,对于在线时间序列分割的需求日益增长。本文“在线分割时间序列数据”探讨了如何在实时环境中有效地识别和预测时间序列中的模式变化。 时间序列分割是数据挖掘的关键技术,其主要目标有两个:一是检测产生时间序列的系统何时发生了变化,即异常检测;二是为了简化数据,通过创建高阶表示,便于后续的索引、聚类和分类操作。在线分割方法特别适用于需要实时响应的时间序列数据库,例如监控网络流量、股票市场动态或医疗健康监测等场景。 文章提出了一个正式的描述来定义时间序列分割问题,并给出了一种评估分割算法演进的准则。这个准则考虑了分割算法在捕获时间序列关键变化点的同时,避免过度拟合的能力。过度拟合是模型拟合数据时的一个常见问题,它可能导致模型过于复杂,对噪声过于敏感,无法泛化到新的数据上。 接着,作者介绍了一种名为OLS(在线分割)的迭代算法。这个算法的独特之处在于它不依赖于先验知识,也就是说,它不需要对被分割的时间序列有任何预设的假设。这使得OLS具有较好的适应性和普适性,可以应用于各种类型和来源的时间序列数据。 实验结果显示,OLS能够在检测时间序列关键变化点时,减少过拟合现象,相比其他竞争算法,它的表现更优。这表明OLS算法在实际应用中能提供更准确的实时预测和更稳定的性能。 关键词:数据挖掘、知识获取、时间序列、分割 这篇技术文档为时间序列分析提供了一个新的视角,OLS算法为在线分割提供了有效的工具,有助于实时环境下的决策支持和智能分析。在实际应用中,这种技术可以帮助企业和研究人员快速响应数据变化,提高数据驱动的决策效率。
资源推荐
资源详情
资源评论
Vol.15, No.11
©2004 Journal of Software 软 件 学 报
1000-9825/2004/15(11)1671
在线分割时间序列数据
∗
李爱国
1,2+
,
覃
征
2
1
(西安科技大学 计算机科学技术系,陕西 西安 710054)
2
(西安交通大学 计算机科学技术系,陕西 西安 710049)
On-Line Segmentation of Time-Series Data
LI Ai-Guo
1,2+
, QIN Zheng
2
1
(Department of Computer Science and Technology, Xi’an University of Science and Technology, Xi’an 710054, China)
2
(Department of Computer Science and Technology, Xi’an Jiaotong University, Xi’an 710049, China)
+ Corresponding author: Phn: +86-29-82663979, E-mail: liag@xust.edu.cn
Received 2003-07-02; Accepted 2004-02-05
Li AG, Qin Z. On-Line segmentation time-series data. Journal of Software, 2004,15(11):1671~1679.
http://www.jos.org.cn/1000-9825/15/1671.htm
Abstract: Segmentation of time series is one of the important tasks in time series data mining. Segmentation has
two major uses: It may be performed either to detect when the system that creates the time series has changed or to
create a high level representation of the time series for indexing, clustering, and classification. Approaches to
on-line segmentation of time series are necessary when identifying and predicting temporal patterns in real-time
time series databases are needed, and this is the focus of this paper. A formal description of segmenting time series
problem and a criterion for the evolution of segmentation algorithms are presented. An on-line iterative algorithm of
segmenting time series, called OLS (on-line segmentation), is then proposed. OLS is independent of a priori
knowledge about the segmented time series. Experimental results demonstrate that OLS can on-line detect the
critical change points of time series with less ‘over fit’ than that of competitive algorithms.
Key words: data mining; knowledge acquisition; time series; segmentation
摘 要: 时间序列分割是时间序列数据挖掘研究的重要任务之一.它主要有两个应用:检测生成时间序列的系
统何时发生变化;创建时间序列的高级数据表示,从而对时间序列进行索引、聚类和分类.在实时时间序列数据
挖掘应用中,需要在线时间序列分割算法,以便实时发现和预测时态模式.在对时间序列分割问题进行形式化描
述的基础上,提出了一种评估时间序列的分割结果以及分割算法性能的评价指标,并提出了一种在线分割时间
序列数据的递推算法(on-line segmentation,简称 OLS).OLS 的一个显著特点是不依赖有关时间序列的先验知识.
实验结果说明,OLS 算法能够有效地在线检测出数据挖掘应用中感兴趣的关键变化点,而且“过拟合”程度低.
关键词: 数据挖掘;知识获取;时间序列;分割
∗ Supported by the Key Science-Technology Project of the ‘Tenth Five-Year-Plan’ of Shaan’xi Province of China under Grant
No.2000K08-G12 (陕西省科学技术发展计划“十五”攻关项目)
作者简介: 李爱国(1966-),男,甘肃张掖人,博士,副教授,主要研究领域为机器学习,数据挖掘,信息融合;覃征(1956-),男,博士,
教授,博士生导师,主要研究领域为复杂环境下自适应信息处理,信息融合,计算机系统集成与电子商务,分布式并行信息处理.
1672
Journal of Software 软件学报 2004,15(11)
中图法分类号: TP311 文献标识码: A
时间序列数据在一些新的数据库应用,如数据仓库以及数据挖掘等领域中日益重要.与传统的统计分析方
法不同,在这些应用中,人们试图基于某种相似性度量,从时间序列数据中抽取感兴趣的模式,以便进行查询、分
析和发现规则等处理.虽然根据具体应用的不同,对“模式”的定义会有所区别,但是一个共同点是将模式定义为
一个相似时间序列的集合.例如,在给定时间段内,那些价格大幅下降的股票价格序列数据的集合就是一个模式
(大幅下降模式),其中每支股票的价格数据就是该模式的一个样本.又例如,同一支股票数据序列,连续 5 个交易
日价格单调上升的子序列的集合构成一个模式(单调上升模式).
从时间序列数据抽取模式的一般方法是,先将原始时间序列分割,并将所得的子序列转换为某种高级的数
据表示,如符号序列或者某个特征空间中的点,然后在此符号序列或者特征空间中进行聚类(或分类),生成模式
或模式集合
[1,2]
.其中关键问题之一是如何分割时间序列数据.
文献[1]指出,时间序列分割主要有两个应用:系统模型变化检测,即当产生时间序列的系统的模型(或参数)发
生变化时,应用分割算法可以检测到这种变化是何时发生的;应用分割算法创建时间序列的高级数据表示,以便对
时间序列进行索引、聚类和分类.因此,研究时间序列分割算法具有重要的理论意义和实际应用价值,并已成为时间
序列数据挖掘研究的主要任务之一
[1]
.
文献[3]研究用一组人工神经网络模型分割时间序列.而在时间序列数据挖掘研究中,常采用分段直线表示
(piecewise linear representation,简称 PLR)方法分割时间序列
[4]
.因为 PLR 法比较符合人们的直观经验,而且通常
索引结构维数低、计算速度较快,所以被较多人采用.但是,正如文献[4]所指出的,对各种 PLR 法的深入研究还
比较欠缺.文献[4]对 3 种 PLR 法做了实验比较研究,但是缺乏系统的理论分析.文献[5]提出了基于分段回归分析
技术的时间序列分割算法,也没有给出理论分析.文献[2]系统地给出了一种基于分段多项式回归分析技术的最
优时间序列分割及高级数据表示方法(piecewise polynomial representation,简称 PPR),并据此系统化地研究了时
间序列相似性比较和模式抽取方法.文献[2]证明了这种基于分段多项式回归分析的高级数据表示以及相似模
式发现技术具有与 DFT(discrete Fourier transform)方法和 DWT(discrete wavelet transform)方法一样好的数学性
质,而且也证明某些 PLR 方法实际上是这种方法的特例.这一研究结果为基于分段多项式回归的时间序列高级
数据表示和相似模式发现技术奠定了理论基础.这种技术的基本思路是用一个分段回归模型近似时间序列数
据,从而“自然”地把时间序列数据分割为一个不重叠的有序子序列集合.文献[6]进一步改进了文献[5]的算法,
大幅度提高了时间序列分割算法的计算效率.
在实时时间序列数据挖掘的应用场合,需要对实时得到的时间序列数据进行在线分割,以便实时发现和预
测时态模式.但是,上述算法均不适合此种应用.文献[7]针对可预测的时间序列,探讨了在线分割时间序列的问
题,并提出了两种基于时间序列多步预测的实时分割算法.尽管时间序列预测的方法有很多
[8,9]
,但是许多时间
序列是不可预测的,因此有必要研究更加一般的分割算法.
本文在对时间序列分割问题进行形式化描述的基础上,研究了评估时间序列分割结果以及分割算法的评
价指标,并提出了一种在线分割时间序列数据的递推算法(on-line segmentation,简称 OLS).对比实验结果说明,
OLS 算法能够有效地在线检测出数据挖掘应用中感兴趣的关键变化点,而且“过拟合”程度低.
1 时间序列分割
1.1 时间序列分割问题的形式化描述
为了叙述简便,我们使用如下记号:
X
:长度为
N
的时间序列的集合;
M
:候选的模型集合,且
∅
≠
M ;
∅
是空集合.
定义 1.
,X∈∀x
M
P
∈
∃ ,使得 ,称 为原始序列)(
ˆ
xx P= x
ˆ
x
经由模型
P
产生的时间序列.
定义 2. 给定阈值 0>
ε
以及距离度量 ,如果d X
∈
∀x ,
M
P
∈
∃
,有
(1)
ε
≤),
ˆ
( xxd
剩余8页未读,继续阅读
资源评论
Lee达森
- 粉丝: 1518
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- json的合法基色来自红包东i请各位
- 项目采用YOLO V4算法模型进行目标检测,使用Deep SORT目标跟踪算法 .zip
- 针对实时视频流和静态图像实现的对象检测和跟踪算法 .zip
- 部署 yolox 算法使用 deepstream.zip
- 基于webmagic、springboot和mybatis的MagicToe Java爬虫设计源码
- 通过实时流协议 (RTSP) 使用 Yolo、OpenCV 和 Python 进行深度学习的对象检测.zip
- 基于Python和HTML的tb商品列表查询分析设计源码
- 基于国民技术RT-THREAD的MULTInstrument多功能电子测量仪器设计源码
- 基于Java技术的网络报修平台后端设计源码
- 基于Python的美食杰中华菜系数据挖掘与分析设计源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功