数据流--英文
需积分: 0 169 浏览量
更新于2012-03-14
收藏 231KB PDF 举报
### 数据流管理系统的模型与问题
#### 摘要与背景
随着信息技术的快速发展,大量新兴的数据密集型应用出现,这些应用中的数据不再以持久化关系的形式存在,而是以连续、快速、随时间变化的数据流形式出现。例如,金融应用、网络监控、安全领域、电信数据管理、Web应用、制造业、传感器网络等都是此类应用的例子。
在数据流模型中,单个数据项可以是关系元组,如网络测量值、通话记录、网页访问记录、传感器读数等。然而,这些数据以多条、快速、随时间变化且可能无法预测或界限的数据流形式持续到达,这带来了一些根本性的新研究问题。
传统的数据库管理系统(DBMS)并非为这种快速连续的数据加载而设计,并且不直接支持数据流应用中典型的连续查询。此外,在处理高速数据流时,近似计算和适应性被认为是执行查询和其他处理(如数据分析和挖掘)的关键成分,而传统的DBMS则主要关注精确答案的计算和稳定的查询计划。
本篇论文探讨了开发通用数据流管理系统(DSMS)的基本模型和关键问题。
#### 引言
近年来,一种新的数据密集型应用类型得到了广泛认可:这类应用中的数据最适合建模为瞬态数据流,而非持久化的关系表。数据流模型中的每个数据项可能是关系元组,例如网络流量监测数据、通话记录、网页访问记录、传感器读数等。但是,这些数据项以多个、快速、随时间变化、可能不可预测且无界的数据流形式连续到达,这引发了一些基本的新研究问题。
对于上述所有应用场景而言,简单地将接收到的数据加载到传统的数据库管理系统中并在此基础上操作是不可行的。传统DBMS并非为快速和连续加载单个数据项而设计,并且它们不直接支持数据流应用中常见的连续查询。此外,人们认识到近似计算和适应性是在高速数据流上执行查询和其他处理(例如数据挖掘)的关键因素,而传统的DBMS主要关注精确答案的计算和稳定的查询计划制定。
#### 数据流管理系统(DSMS)的关键概念
- **数据流特性**:数据流通常具有以下特点:
- 连续性:数据项按顺序到达。
- 高速性:数据项以极快的速度到达。
- 时间依赖性:数据的有效性和价值随时间变化。
- 大规模性:数据量可能非常庞大。
- 不确定性:数据的到达时间和频率难以准确预测。
- **连续查询**:数据流系统中经常使用的查询类型,用于对实时数据进行连续分析。与传统的SQL查询不同,连续查询持续运行并在数据到达时返回结果。
- **近似算法**:由于数据流的特点,使用精确算法在某些情况下既不实际也不高效。近似算法能够提供足够接近真实结果的答案,同时降低计算成本。
- **适应性处理**:数据流的不确定性意味着系统必须能够在不断变化的条件下自动调整其行为。适应性处理机制确保即使在数据速率和类型变化的情况下也能保持良好的性能。
- **资源管理和调度**:数据流系统需要有效的资源管理和调度策略来处理高负载情况,避免资源浪费和瓶颈现象。
#### 关键挑战
- **存储与内存管理**:数据流系统的实时性和连续性要求高效的数据存储结构和内存管理机制。
- **查询优化**:如何针对特定的数据流特性优化查询执行计划,减少延迟和提高响应速度。
- **容错机制**:数据流处理过程中可能出现的错误和故障需要有强大的容错机制来保证系统的稳定性和可靠性。
- **安全性与隐私保护**:随着敏感数据越来越多地通过数据流传输,如何保护数据的安全性和用户的隐私成为重要课题。
- **可扩展性**:随着数据量的增长,系统需要能够水平扩展以应对更大的数据吞吐量。
#### 结论
数据流管理系统的开发涉及到许多复杂的技术挑战,但同时也为解决大数据问题提供了新的途径。通过对数据流特性的深入理解以及相应技术的发展,未来有望构建出更加强大和高效的数据流处理平台,以满足不断增长的数据处理需求。