分布式实时多数据流常用处理架构关键技术的研究与实现
摘要:现如今,很多企业构建了大数据平台框架,及时搜集数据、分配数据和
保存数据,在这过程中积攒了很多经验。但是,在研究和分析电力大数据计算时,
不能及时完善电力大数据的特征,没哟进一步研究海量实时数据流处理能力,还
不能完全满足各业务部门对电力大数据分析挖掘和实时决策的需求。对此针对电
力大数据实时处理及智能分析技术进行研究,以此补救大数据框架中的薄弱环节,
研发海量实时高速大数据流的处理和智能分析技术,提升大数据平台能力,并在
平台之上建立更多高业务价值的实时智能决策分析型应用。
关键词:分布式实时多数据流;处理架构;关键基础
1.分布式多数据流即时处理架构及关键技术研究
1.1 国内外主流分布式多数据流处理技术产品研究
选取国内外应用较广的分布式处理、流计算技术产品,如 Storm、Spark
Streaming、IBM Streams、S4 等,对其技术特点进行挖掘,包括稳定性、处理延
迟、动态部署、功能扩展、数据集成、可操作性、是否丢包等,建立原型并进行
技术预研,通过仿真数据环境研究其性能表现,比较不同分布式流计算产品的异
同与特点,同时了解流计算技术的具体实现机制和关键技术点,为后续开展域分
布式多数据流实时处理流计算框架设计和面向高速数据流处理的分布式服务体系
设计提供充分的依据和参考。
基于开源 Storm 产品研究如何构建一个基础的流式计算的框架和模型,提供
输入、运算符和输出整套处理框架和流程;以及灵活的并发计算基础设施,提供
线性节点扩展能力,结合输入流流量灵敏性来判断其控制能力;能够架构在低廉
的 PC 服务器上,构成流处理集群,平衡分析处理能力及成本;使得海量流数据
处理可以在规定的时间内完成。研究如何设计实现一个高度可扩展和灵活的架构
来处理各种各样的结构化和非结构化数据。
1.3 分布式数据流计算框架的电力行业典型应用设计
流计算网络安全风险预警应用设计主要包括几下两点:首先,对安全数据流
处理模型进行深入探讨,如非结构化数据、路由器、安全设备和安全系统结构,
进一步探讨关于流式处理技术中的数据采集、数据传送和存储模型等。其次,分
析安全数据检索和开采模型,索引模型基于分布式存储架构,实现智能化检索;
构建安全监控场景模型与安全态势分析模型,借助大数据开挖和相连分析技术,
找到安全事件,对安全运行趋势进行研究。
针对广域分布式多数据流实时处理流计算框架、高速数据流处理分布式服务
体系、典型应用设计成果,设计并验证分布式数据流计算框架的系统,系统分为
两部分:构建分布式数据流计算平台、在平台上应用网络安全风险分析和预警使
用。
2.广域分布式多数据流实时处理流计算框架
2.1 电网多数据流实时处理流计算框架
在电网调度自动化系统中,包含大量实时处理工作,增加了实时数据库的工
作量,所以,实时数据库系统需要重点掌握互联大电网数据广域分布、数据量大、
实时共享的特性,选择广域、分布的方法对实时数据进行保存和处理。根据现状
来看,实时数据库系统依旧在单一调度自动化系统范围内运行,其数据分布式存
评论0
最新资源