收稿日期
: 2018-08-17;
修回日期
: 2018-09-02;
录用日期
: 2018-10-22。
基金项目
:
江苏省博士后科研资助计划项目
( 1701020C) ;
江苏省
“
六大人才高峰
”
资助项目
( XYDXX-078) 。
作者简介
:
刘子豪
( 1995—) ,
男
,
江苏南京人
,
硕士研究生
,
主要研究方向
:
数据挖掘
、
大数据
;
李凌
( 1968—) ,
女
,
江苏南京人
,
工程师
,
硕
士
,
主要研究方向
:
云计算
、
大数据
;
叶枫
( 1980—) ,
男
,
山东济南人
,
讲师
,
博士
,CCF
会员
,
主要研究方向
:
分布式计算
、
大数据
。
文章编号
: 1001-9081( 2019) 02-0436-05 DOI: 10. 11772 /j. issn. 1001-9081. 2018081782
基于
SparkR
的水文传感器数据的异常检测方法
刘子豪
1
,
李 凌
2
,
叶 枫
2
*
( 1.
江苏科技大学 计算机学院
,
江苏 镇江
212003; 2.
河海大学 计算机与信息学院
,
南京
211100)
( *
通信作者电子邮箱
yefeng1022@ hhu. edu. cn)
摘 要
:
为了高效地从海量的水文传感器数据中检测出异常值
,
提出一种基于
SparkR
的水文时间序列异常检测
方法
。
首先
,
对数据进行清洗后
,
采用滑动窗口配合自回归积分滑动平均模型
( ARIMA)
在
SparkR
平台上进行预测
;
然后
,
对预测的结果计算置信区间
,
将在区间范围以外的判定为异常值
;
最后
,
基于检测结果
,
利用
K
均值算法对原数
据进行聚类
,
同时计算其状态转移概率
,
对检测出的异常值进行质量评估
。
以在滁河获取的水文传感器数据为实验
数据
,
分别在运行时间和异常值检测效果这两个方面进行了实验
。
结果显示
:
利用
SparkR
对百万级数据进行计算时
,
利用双节点计算的时间要长于单节点
;
但是对千万级数据进行计算时
,
双节点比单节点计算时间上更少
,
最多减少了
16. 21% ,
且评估过后的灵敏度由之前的
5. 24%
提高到了
92. 98% 。
实验结果表明
,
在
SparkR
下
,
根据水文数据的特
点并结合预测检验和聚类校验的方法对千万级水文时间序列进行检测时
,
能有效提高传统方法的计算效率
,
并且在
灵敏度方面相比传统方法也有显著提升
。
关键词
: SparkR;
自回归积分滑动平均模型
;
异常检测
;
水文时间序列
; K
均值
中图分类号
: TP391
文献标志码
: A
Anomaly detection method for hydrologic sensor data based on SparkR
LIU Zihao
1
,LI Ling
2
,YE Feng
2
*
( 1. School of Computer Science,Jiangsu University of Science and Technology,Zhenjiang Jiangsu 212003,China;
2. College of Computer and Information,Hohai University,Nanjing Jiangsu 211100,China)
Abstract: To efficiently detect outliers in massive hydrologic sensor data,an anomaly detection method for hydrological
time series based on SparkR was proposed. Firstly
,a sliding window and Autoregressive Integrated Moving Average ( ARIMA)
model were used to forecast the cleaned data on SparkR platform. Then,the confidence interval was calculated for the prediction
results,and the results outside the interval range were judged as anomaly data. Finally,based on the detection results,K-Means
algorithm was used to cluster the original data,the state transition probability was calculated,and the anomaly data were
evaluated in quality. Taking the data of hydrologic sensor obtained from the Chu River as experimental data
,experiments on the
detection time and outlier detection performance were carried out respectively. The results show that the millions of data
calculation by two slaves costs more time than that by one slave,but when calculating the tens of milllions of data,the time
costed by two slaves is less than that by one slave,and the maximum reduction is 16. 21% . The sensitivity of the evaluation is
increased from 5 . 24% to 92. 98% . It shows that under big data platform,the proposed algorithm which is based on the
characteristics of hydrological data and combines forecast test and cluster test can effectively improve the computational efficiency
of hydrologic time series detection for tens of millions data and has a significant improvement in sensitivity.
Key words: SparkR; AutoRegressive Integrated Moving Average ( ARIMA) model; anomaly detection; hydrologic time
series; K-Means
0
引言
水文数据是按其物理量分为各种类型的水文时间序列
。
目前许多专家认为
,
水文时间序列一般由确定分量和随机分量
组成
。
确定分量具有一定的物理概念
,
随机分量则由不规则的
震荡和随机影响产生
[1]
。
水文时间序列主要表现出随机性
、
模
糊性
、
非线性
、
非平稳性和多时间尺度变化等复杂特性
[2]
。
随
着物联网
、
传感器技术的迅猛发展
,
水利信息化部门越来越多
地采用传感器技术来获取水文数据
,
这里面往往也包含许多异
常值
。
对于水文时间序列来说
,
与一般规律相差较大的数值
,
便可以将其判定为异常数据
[3]
。
异常值往往包含着重要的信
息
,
通过精确找到隐藏在数据背后的隐藏值
,
对之后的分析决
策意义重大
。
目前
,
对于水文时间序列
,
传统的方法只适用于
小数据集
,
不适用于现在的大数据环境
,
且精度仅在特异度方
面达到了
99%
[4]
的水准
,
灵敏度仍有提升空间
。
以滑动窗口
算法为例
,
虽然理论上它可以作用于任意长度的数据集
,
但是
对于海量数据
,
它的计算复杂度较高且灵敏度低
。
本文提出了一种基于
SparkR
的海量水文时间序列异常
检测方法
,
将预测检验和聚类检测进行结合
。
首先
,
对得到数
据进行清洗
、
降维
、
去重
、
筛选和排序
;
之后
,
采用滑动窗口配
合自回归积分滑动平均模型
( AutoRegressive Integrated Moving
Average,ARIMA)
进行预测
,
并对预测的结果计算置信区间
,
Journal of Computer Applications
计算机应用
,2019,39( 2) : 436 - 440
ISSN 1001-9081
CODEN JYIIDU
2019-02-10
http: / /www. joca. cn
评论0