"数据采集和数据预处理"
数据采集是数据分析研究的重要步骤之一,主要用于实现对DSM分析研究中所需的电力供需、相关政策法规等原始数据、信息的多种途径采集。数据采集功能主要包括定时数据采集、随机采集、终端主动上报数据等多种数据采集模式,支持手工输入、电子表格自动导入等多种导入方式,并能够对所采集的数据进行维护,包括添加、修改、删除等,并能进行自动定期备份。
数据采集可以分为结构化数据和非结构化数据两种。结构化数据包括生产报表、经营报表等具有关系特征的数据;非结构化数据,主要包括互联网网页(HTML)、格式文档(Word、PDF)、文本文件(Text)等文字性资料。这些数据可以通过关系数据库和专用的数据挖掘软件进行挖掘采集。
数据预处理是数据分析的重要步骤之一,主要用于对采集到的海量数据信息进行挖掘整合,按照统一规范的组织形式存储到DSM数据仓库,供图1系统体系结构分析研究使用。数据预处理的工作质量很大程度上决定最终服务数据的质量,是DSM类项目(如DSM项目全过程管理、有序用电方案评价等)深度分析的重要基础。
在数据智能分析处理中,主要包括自动分类、自动摘要、自动排重等智能化处理技术。自动分类用于对采集内容的自动分类;自动摘要用于对采集内容的自动摘要;自动排重用于对采集内容的重复性判定。
电力数据采集与传输是电力系统分析和处理的一个重要环节。电力信息的数据采集与集成电力作为传统行业,其下属分系统众多,因而数据的种类也相当繁杂。数据类型包括工程数据、设备运行数据、电网调度实时数据、物料数据、用户数据等。
电力数据集成主要解决两个方面的问题,一是解决数据分散性问题,另外一个是解决数据结构异构不匹配的问题。电力系统涵盖地域广泛,发电、输电、用电的信息系统都分散在不同区域,从组织管理来看,省电力公司与下属电力企业地域分散性也非常高,电力数据信息的分布也散步在不同地方。为了这个问题,建立数据集成平台,逐渐引入网络存储、建立数据集中存储中心,把企业现有的大量数据库进行物理合并;整合到一起的数据可被多台服务器存取。
数据整合从逻辑上讲是在服务器集中和物理整合、网路互连之后进行的。数据整合可以通过更集中的方式管理和控制数据,从而创造更大的规模效应。
- 1
- 2
- 3
前往页