收 稿日期 : 2006-08-21; 修 返日期 : 2006-10-20 基 金项 目: 福 建省 自然科 学基 金资 助 项目 ( Z051503) ; 校 科技 发 展基 金 资助 项 目( 2004-
XQ-17)
作 者简介 : 詹艳艳 ( 1981-) , 女, 浙江 绍兴人 , 硕士研 究生, 主 要研究 方 向为 机 器学 习 、数据 挖 掘( yanyan. 4x@ 163. com) ; 陈 晓 云( 1970- ) , 女, 福
建晋江 人, 副教 授, 硕导, 主 要研究 方向为 数据 挖掘、机器 学习 、模 式 识 别; 徐荣 聪 ( 1952- ) , 男, 福 建 莆 田 人, 副 教 授, 硕 导 , 主 要 研究 方 向 为 计算 数
学等.
基 于 时 间 序 列 模 式 表 示 的 异 常 检 测 算 法
*
詹艳艳, 陈晓云, 徐荣聪
( 福 州大 学 数学与 计算 机科 学学 院, 福 州 350002)
摘 要: 提 出了 一种 基于 时间 序列 的模式 表示 提取 时间 序列 异常 值 的 异常 检 测 算法 ( PREOV) 。时 间 序列 的 模
式表 示本 身就 具有压 缩数 据、保 持时间 序列 基本 形态 的 功能 , 并 且 具有 一 定 的 除 噪 能 力。 在 时 间序 列 模 式 表 示
的基 础上提 取异 常值 , 可 以大 大提 高算 法的 效率 和准 确性 , 达 到事 半功 倍的 效果。 在本 算法 中, 还 使 用 了一 定 的
剪枝 策略 , 使 得算 法的 时间 复杂 度进一 步降 低。 该算 法计 算 简 单、实 现 方 便 、无 须训 练 , 可 以 支 持时 间 序 列 的 动
态增 长。
关键 词: 斜 率; 时间 序列 ; 模式 表示 ; 支 持数 ; 异常 值
中图 分类 号: TP391. 41 文献 标志 码: A 文章 编号 : 1001-3695( 2007) 11-0096-04
Outlier detection algorithm based on pattern representation of time series
ZHAN Yan-yan, CHEN Xiao-yun, XURong-cong
( School of Mathematics & Computer Science, Fuzhou University, Fuzhou 350002, China)
Abstract: This paper imported an algorithmwhichwas based on the pattern representation of time series extract outlier value
( PREOV) . The patternrepresentation of time series itself had the functionof compress data and keep the basic shape of time
series, and it had acertain extenteffect of noises removal. Based on PREOV could enormously increase the efficiency and ve-
racity of algorithm, and gottwice the result with half the effort. Besides, used some strategy of pruning, which made the algo-
rithm’s time complexity more lower. And this algorithm can be easy calculated and carry out, the training is needless and it
can support the dynamic increase of time series.
Key words: slope; time series; pattern representation; support; outlier value
时间序列是指按照时间先 后顺序 排列的 各个观 测记录 的
有序集合, 广泛存在于商业、经济、医疗等领域。随着时间的推
移, 时间序列通常包 含大量 的数据。对 时间序 列进行 分析, 可
以揭示事物运动、变化和 发展的 内在规 律, 对 于人们 正确认 识
事物并据此作出科学的决策具有重要的现实意义。
在对时间序列进行分析时, 经常希望能够发现这些时间序
列在不同时间段的形态有 何关联 关系。这种 关联关 系一般 表
现为时间序列中频繁出现的变化模式和极少出现的变化模式。
这种极少出现的变化模式称之为异常模式。在某些领域, 异常
模式的发现对人们来说往往更有价值。例如, 医院可以从病人
的心电图序列中发现异常模式从而进行诊断和治疗。
目前为止, 时间序列的异常检测已广泛应用到医疗、金融、
入侵检测以及可疑活动监控等领域。
1 相关工作
近年来, 异常检测作为 数据挖 掘的一 个分支, 正受 到越 来
越广泛的关注。以往的很多研究都是基于无序数据集的, 而时
间序列的序列点之间又恰 恰是有 序的。因此 很多异 常检测 算
法并不适用于时间序列。
时间序列的研究工作还 不是很 成熟, 甚至到 目前为 止, 对
于时间序列的异常还没有 一个公 认的定 义。 许多研 究者在 自
己 的 研 究 过 程 中 都 提 出 了 不 同的 时 间 序 列 异 常 定 义, 如 新
颖
[ 1 ~4]
、奇异
[ 5,6]
、变化点
[ 7]
、异常
[ 8,9]
、不正常的
[ 10]
等。
按照异常的表现形式不同, 线性时间和空间上时间序列的
异常主要可以分为点异常和模式异常两种, 它们都是用于发现
一条时间序列上的异常情况的。本文主要研究的是模式异常。
它是指在一条时间序列上与其 他模式 之间具 有显著 差异的 模
式。事实上, 点异常也可以认为是长度为 1 的模式异常。
本文提出了一种基于时间 序列的 模式表 示提取 时间序 列
异常值的异常检测算法。由于 时间序 列的模 式表示 方法本 身
就具有刻画时间序列的主要形态而忽略那些微小细节的特点。
它可以对时间序列进行压缩, 换来 更小的 存储和 计算代 价; 可
以只保留时间序列的主要形 态, 去 除细节 干扰, 更能 反映时 间
序列的自身特征。
2 相关定义
定义 1 时间序列的模式表示。
第 24 卷 第 11 期
2007 年 11 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 24 No. 11
Nov. 2007
评论0
最新资源