【免费】基于SparkR的水文传感器数据的异常检测方法

需积分: 0 92 浏览量 2022-08-04 15:15:57 上传评论 1 收藏 480KB PDF 举报

【SparkR】SparkR是Apache Spark的一个R语言接口，它允许用户在R环境中处理大规模数据。SparkR提供了分布式数据集抽象，支持数据操作类似于R中的data.frame，同时也提供了机器学习库MLlib的一部分功能，包括线性代数、统计和图形算法。【水文传感器数据】水文传感器数据是指通过水文监测设备收集到的各种水文参数，如流量、水位、降雨量等，形成的连续时间序列数据。这些数据通常包含确定性和随机性成分，确定性成分反映水文过程的物理规律，而随机性成分则体现了自然现象的不确定性。【水文时间序列】水文时间序列是按时间顺序记录的水文参数，如流速、水位等，它们可以被分解为确定性分量（如季节性、趋势）和随机分量。分析水文时间序列对于水资源管理、洪水预警和环境研究至关重要。【ARIMA模型】自回归积分滑动平均模型（ARIMA）是一种统计模型，广泛用于时间序列预测。ARIMA结合了自回归（AR）、差分（I）和滑动平均（MA）三个部分，能够处理非平稳时间序列数据，使其转化为近似平稳的过程，从而进行建模和预测。【异常检测】异常检测是指在数据集中识别出与其他数据点显著不同的观测值。在水文传感器数据中，异常值可能是由于设备故障、测量误差或罕见事件导致的，及时发现并处理这些异常值对于确保数据质量和后续分析的准确性至关重要。【滑动窗口】滑动窗口是一种处理时间序列数据的技术，它将数据划分为固定长度的连续子集（窗口），每个窗口沿着时间轴向前移动，用于分析或预测特定时间间隔内的数据行为。【置信区间】置信区间是统计学中表示预测或估计值可能落在的范围，通常根据预测的误差和样本大小计算得出。在异常检测中，超出置信区间的预测值可能被视为潜在的异常值。【K均值算法】K均值是一种常见的无监督学习算法，用于聚类分析。它通过迭代将数据点分配到最近的簇中心，最终形成K个聚类。在水文学中，K均值可以用来将相似的水文观测值归为一类，进一步分析和理解水文现象。【状态转移概率】状态转移概率是指一个系统在不同状态之间转换的概率。在水文异常检测中，它可以用来描述数据从一种状态（正常或异常）转移到另一种状态的可能性。【实验结果】实验显示，使用SparkR处理百万级数据时，双节点计算时间略长于单节点；但处理千万级数据时，双节点显著减少计算时间，最多可减少16.21%，同时提高了异常检测的灵敏度，从5.24%提升至92.98%。这表明SparkR在处理大规模水文时间序列数据时，能有效提高计算效率，并改善异常检测性能。总结：本文提出的基于SparkR的水文传感器数据异常检测方法，结合ARIMA模型进行预测，通过置信区间判断异常值，再利用K均值聚类和状态转移概率进行质量评估。实验结果证明，这种方法在处理大规模数据时，不仅提高了计算效率，而且在异常检测的准确性和灵敏度上表现出优越性。这对于实时监控和管理水文系统具有重要意义。

资源详情

资源评论

资源推荐

收稿日期

： 2018-08-17；

修回日期

： 2018-09-02；

录用日期

： 2018-10-22。

基金项目

：

江苏省博士后科研资助计划项目

（ 1701020C）；

江苏省

“

六大人才高峰

”

资助项目

（ XYDXX-078）。

作者简介

：

刘子豪

（ 1995—），

男

，

江苏南京人

，

硕士研究生

，

主要研究方向

：

数据挖掘

、

大数据

；

李凌

（ 1968—），

女

，

江苏南京人

，

工程师

，

硕

士

，

主要研究方向

：

云计算

、

大数据

；

叶枫

（ 1980—），

男

，

山东济南人

，

讲师

，

博士

，CCF

会员

，

主要研究方向

：

分布式计算

、

大数据

。

文章编号

： 1001-9081（ 2019） 02-0436-05 DOI： 10． 11772 /j． issn． 1001-9081． 2018081782

基于

SparkＲ

的水文传感器数据的异常检测方法

刘子豪

，

李凌

，

叶枫

（ 1．

江苏科技大学计算机学院

，

江苏镇江

212003； 2．

河海大学计算机与信息学院

，

南京

211100）

（ *

通信作者电子邮箱

yefeng1022@ hhu． edu． cn）

摘要

：

为了高效地从海量的水文传感器数据中检测出异常值

，

提出一种基于

SparkＲ

的水文时间序列异常检测

方法

。

首先

，

对数据进行清洗后

，

采用滑动窗口配合自回归积分滑动平均模型

（ AＲIMA）

在

SparkＲ

平台上进行预测

；

然后

，

对预测的结果计算置信区间

，

将在区间范围以外的判定为异常值

；

最后

，

基于检测结果

，

利用

均值算法对原数

据进行聚类

，

同时计算其状态转移概率

，

对检测出的异常值进行质量评估

。

以在滁河获取的水文传感器数据为实验

数据

，

分别在运行时间和异常值检测效果这两个方面进行了实验

。

结果显示

：

利用

SparkＲ

对百万级数据进行计算时

，

利用双节点计算的时间要长于单节点

；

但是对千万级数据进行计算时

，

双节点比单节点计算时间上更少

，

最多减少了

16． 21% ，

且评估过后的灵敏度由之前的

5． 24%

提高到了

92． 98% 。

实验结果表明

，

在

SparkＲ

下

，

根据水文数据的特

点并结合预测检验和聚类校验的方法对千万级水文时间序列进行检测时

，

能有效提高传统方法的计算效率

，

并且在

灵敏度方面相比传统方法也有显著提升

。

关键词

： SparkＲ；

自回归积分滑动平均模型

；

异常检测

；

水文时间序列

； K

均值

中图分类号

： TP391

文献标志码

： A

Anomaly detection method for hydrologic sensor data based on SparkＲ

LIU Zihao

，LI Ling

，YE Feng

（ 1． School of Computer Science，Jiangsu University of Science and Technology，Zhenjiang Jiangsu 212003，China；

2． College of Computer and Information，Hohai University，Nanjing Jiangsu 211100，China）

Abstract： To efficiently detect outliers in massive hydrologic sensor data，an anomaly detection method for hydrological

time series based on SparkＲ was proposed． Firstly

，a sliding window and Autoregressive Integrated Moving Average （ AＲIMA）

model were used to forecast the cleaned data on SparkＲ platform． Then，the confidence interval was calculated for the prediction

results，and the results outside the interval range were judged as anomaly data． Finally，based on the detection results，K-Means

algorithm was used to cluster the original data，the state transition probability was calculated，and the anomaly data were

evaluated in quality． Taking the data of hydrologic sensor obtained from the Chu Ｒiver as experimental data

，experiments on the

detection time and outlier detection performance were carried out respectively． The results show that the millions of data

calculation by two slaves costs more time than that by one slave，but when calculating the tens of milllions of data，the time

costed by two slaves is less than that by one slave，and the maximum reduction is 16． 21% ． The sensitivity of the evaluation is

increased from 5 ． 24% to 92． 98% ． It shows that under big data platform，the proposed algorithm which is based on the

characteristics of hydrological data and combines forecast test and cluster test can effectively improve the computational efficiency

of hydrologic time series detection for tens of millions data and has a significant improvement in sensitivity．

Key words： SparkＲ； AutoＲegressive Integrated Moving Average （ AＲIMA） model； anomaly detection； hydrologic time

series； K-Means

引言

水文数据是按其物理量分为各种类型的水文时间序列

。

目前许多专家认为

，

水文时间序列一般由确定分量和随机分量

组成

。

确定分量具有一定的物理概念

，

随机分量则由不规则的

震荡和随机影响产生

［1］

。

水文时间序列主要表现出随机性

、

模

糊性

、

非线性

、

非平稳性和多时间尺度变化等复杂特性

［2］

。

随

着物联网

、

传感器技术的迅猛发展

，

水利信息化部门越来越多

地采用传感器技术来获取水文数据

，

这里面往往也包含许多异

常值

。

对于水文时间序列来说

，

与一般规律相差较大的数值

，

便可以将其判定为异常数据

［3］

。

异常值往往包含着重要的信

息

，

通过精确找到隐藏在数据背后的隐藏值

，

对之后的分析决

策意义重大

。

目前

，

对于水文时间序列

，

传统的方法只适用于

小数据集

，

不适用于现在的大数据环境

，

且精度仅在特异度方

面达到了

99%

［4］

的水准

，

灵敏度仍有提升空间

。

以滑动窗口

算法为例

，

虽然理论上它可以作用于任意长度的数据集

，

但是

对于海量数据

，

它的计算复杂度较高且灵敏度低

。

本文提出了一种基于

SparkＲ

的海量水文时间序列异常

检测方法

，

将预测检验和聚类检测进行结合

。

首先

，

对得到数

据进行清洗

、

降维

、

去重

、

筛选和排序

；

之后

，

采用滑动窗口配

合自回归积分滑动平均模型

（ AutoＲegressive Integrated Moving

Average，AＲIMA）

进行预测

，

并对预测的结果计算置信区间

，

Journal of Computer Applications

计算机应用

，2019，39（ 2）： 436 － 440

ISSN 1001-9081

CODEN JYIIDU

2019-02-10

http： / /www． joca． cn

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

H等等H

粉丝: 43
资源: 337

基于SparkR的水文传感器数据的异常检测方法_刘子豪1

评论0

最新资源

基于SparkR的水文传感器数据的异常检测方法_刘子豪1

评论0

传感器网络中的局部异常检测算法

带R降价的异常值检测

数据挖掘2-刘子豪1

基于神经网络的珍稀红木图像识别技术.pdf

2017211971-刘子豪-体系结构设计文档A1

基于系统性思维的智能家居设计.pdf

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Chrome Header Editor 插件

Goby红队版-win-x64-2.4.7版本

软件工程导论(第六版)课后习题答案1

OpenVAS GVM 中文翻译补丁

第四届网鼎杯赛前训练(20241019)

通达信股票行情接口C#版API手册

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

OpenVAS离线资源

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

2023年最全最精简wifi密码字典(2.6G)

hackbar2.1.3-master安装包

小迪安全笔记，详细版本

关于STM32F103C8T6芯片的一些重要引脚功能的整理1

Kali安装burpsuite专业版

goby红队&社区版-win-64-2.4.7

LiqunKit-1.6.2

2021年11月更新的哥斯拉4.0.1 免费

全面的安全基线核查清单

最新资源