没有合适的资源?快使用搜索试试~ 我知道了~
基于二进制位缺失标识与改进D-S证据理论的数据融合技术研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 44 浏览量
2022-12-15
14:24:01
上传
评论
收藏 318KB DOCX 举报
温馨提示
试读
14页
基于二进制位缺失标识与改进D-S证据理论的数据融合技术研究.docx
资源推荐
资源详情
资源评论
1 引言
“十二五”以来,电网公司大力推进生产域信息化和智能化建设,目前已经建
设并推广了一批信息化系统,涵盖了生产运营的多业务域。但数据分散在各个
系统中,没有得到有效的融合,无法进行多层次多维度的分析、预警和可视化的
展现。随着业务系统增加,系统规模增大,产生的数据呈现指数增长,数据结构和
类型也多样化和复杂化。数据量由每个城市每天的 MB 级增加到 GB/TB 甚至
PB 级,种类也由原来的单纯结构数据变化到结构化、非结构化数据,由简单的一
个维度或者少数维度到集视频、拓扑结构、数值、地图等多维多源,主要特征
包括:① 数据采集点多,每个采集点采集相对固定类别的数据,且分布在各个电
压等级内;② 不同采集点的采样尺度不同,数据断面不同;③ 数据不健全,数据
采集存在误差和漏传;④ 不同业务数据分布在不同的应用系统中。为充分挖掘
数据价值,支撑电网的规划、建设、运营、改造、用户接入等,提高供电可靠性,
开展电力系统多业务系统的数据融合技术研究至关重要。
数据融合技术能够综合多个数据源提供的互补和冗余数据,获得观测对象
更全面、更准确的数据,从而得到准确、快捷的决策和判断
[1]
。同时,数据融合技
术扩展了具体模型确定范围,对目标或事件的确认增加了可信度,减少了信息的
模糊性,改善了系统的可靠性
[2]
。国内外大数据多源信息融合技术逐渐发展和成
熟,且所含技术领域宽广,如智能电网
[3,4,5]
、国防、设备监测、环境保护、交通等
都有涉及和应用。多源数据融合方法主要有卡尔曼滤波法
[6,7,8]
、贝叶斯(Bayes)
推理法
[9,10,11,12]
、D-S 证据推理 法
[13]
、聚类分析法
[14,15]
、神经网络法
[16]
等。而基
于大数据技术的数据融合技术也在电网中得到了应用,如文献[17,18]提出基于
大数据技术的数据融合技术在新能源接入、安全状态评估和故障预警等领域的
应用;文献[19,20,21]利用多源数据融合技术实现电力系统故障诊断,提高预测
准确率;文献[22]在数据环境恶劣的情况下基于 D-S 证据融合理论实现电力系统
状态估计;文献[23,24,25]提出基于时间序列分析和灰色神经网络学习等大数据
技术,实现电网设备的异常数据的实时监测及预测。
上述数据融合技术研究仅针对数据融合中单一环节、单一情况的数据融合,
而在实际电力系统建设中,往往是要考虑整个数据融合的过程,包括从数据抽取、
数据校验和多源融合。基于此,本研究将从数据融合全过程着手,系统研究数据
结构不统一的数据抽取与多源融合两个子过程,提出基于二进制位缺失标识和
改进 D-S 证据理论的数据融合 技术。
2 数据融合模型
2.1 数据多 源融合架构
在电力系统中,数据融合的主要工作就是对从传感器设备、其他电力系统
获取的数据进行处理,存储在数据中心供应用层可视化展示给用户,主要包括数
据抽取,数据抽取后的数据校验,以及对校验过后的数据进行多源融合。系统架
构见图 1。
图 1
图 1 系统架构图
2.2 基于二 进制位缺失标识 的数据抽取模型
在电力系统数据集成融合时,需要从多源系统或多传感器中抽取数据,在数
据抽取过程中容易出现数据遗漏、数据不完整的问题。本研究提出了基于二进
制位的数据缺失标识方法(简称 01 标识法)对缺失数据进行标识,在数据补全或
补抄后用于数据融合过程中的数据校验和多源融合。
数据缺失标识方法利用数值类型 32/64 位特点,以每一位代表一个时间点,
以二进制结果表示是否缺失实现对数据缺失的标识,数据缺失标识分为 2 个环
节。
(1) 设置存储空间。在数据库系统或文件系统中开辟一个固定存储空间,用
于标识数据的存储。
(2) 设置缺失标识。不同采集频率使用选择不同的类型(long、int、short、
byte)作为缺失标识字段类型。以 1~2 min/次(不包含 1、2,下同)的频率,选用
date(yyyy-mm-dd)+byte(1-24)+long; 以 2~12 min/ 次 的 频 率 , 选 用 date(yyyy-
mm-dd)+byte(1-24)+ int; 以 12~60 min/ 次 的 频 率 , 选 用 date(yyyy- mm-
dd)+long,以 1~24 min/次的频率,选用 date(yyyy-mm-dd)+int,以日为单位采集
则使用 short(表示年)+int。其标识字段中以每一位二进制位代表一个时间点,以
二进制 01 值表示该位代表的时间点是否存在遗漏数据,最高位 0 表示没有遗漏
数据,最高位为 1 表示存在遗漏,使用中判断数据是否小于 0 即可。
以每日一次采集频率为例,使用 int 类型(32 位二进制)作为标识,而日期中每
个月最多 31 天,最多占用其中的 31 位,最高位用来判断该月是否存在数据缺失。
当最高位为 1,整个 int 的属性值小于 0(int 最高位为符号位,为 1 时表示负数,为
0 时表示非负数),否则大于等于 0。另外,第 1 位到第 31 位(由最 低位开 始,下
同),分别表示 1 日到 31 日,第 1 位为 0 表示 1 日数据未采集,第 2 位为 0 表示 2
日数据未采集,以此类推,如图 2 所示。
图 2
图 2 二进制位缺失标识(以每日一次采集频率为例)
根据数据缺失标识方法,数据抽取过程及缺失数据标识处理过程可划分为
以下 3 个环节。
(1) 数据抽取时,首先取出 t 时刻所在年份标识记录中月份 m
t
对应的字段值
f
t
(m
t
标识 t 时刻所在的月份)。
(2) 判断当月数据缺失,出现缺失,进行缺失数据抽取请求获取数据。假设
抽取 t 时刻对象 A 的数据,应进行步骤 1)、2)。
1) 判 断 f
t
是 否 小 于 0, 假 若 f
t
<0, 表 示 存 在 数 据 缺 失 , 则 利 用
p
1
=f
t
&(1≪≪0),p
2
=f
t
&(1≪≪1),…,p
31
=f
t
&(1≪≪30) 进 行 判 断 ,p
i
(i=1,…,31) 中 等
于 0 的表示该日期对应数据缺失,不小于 0 表示日期对应数据已经录入,对其中
小于 0 的数据进行补抄,判断时间忽略不计(位运算百万次使用的时间小于 10
剩余13页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3550
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功