• ETL若干关键技术研究

    博士论文 摘要: 本文工作的主要贡献和研究内容如下: 1.给出了一个用于描述ETL过程的模型,称为ETL过程树,将异构数据转换、数据清理与查询树结合。E几过程树中数据清理规定只作用于单个关系节点,当修改ETL过程树中的数据清理规则时,不会对ETL过程树本身产生影响,降低了ETL过程的维护代价。 2.给出了差运算物化视图的增量维护的方法,给出了SRA和BRA两种增量维护方法,并讨论了增量的大小对这两种方法执行效率的影响。 3.在前两点的研究基础上,给出了根据描述全量ETL过程的ETL过程树自动产生增量ETL过程的算法,从而降低ETL过程的设计总代价。 4.利用己有数据血统查询的方法,同时考虑增量ETL过程中错误数据只出现于插入增量中的特性,给出了在增量ETL过程上进行错误数据逆向查询的算法,提高了逆向数据清理的效率。

    5
    66
    6.49MB
    2011-08-30
    9
  • 生产过程数据仓库ETL模块的研究与开发

    硕士论文 摘要:本文首先介绍了数据仓库的概念和特点,以及ETL模块的主要功能。接着针对基于生产过程数据的特点,研究并给出了生产过程历史数据的清洗、转换、抽取的关键算法。在此基础上,设计并开发了面向实时/历史数据库的ETL应用功能软件模块。最后,将本文开发的ETL模块应用于某600MW燃煤机组的运行工况分析数据仓库的建立中,并展示出部分结果。

    0
    63
    6.79MB
    2011-08-30
    9
  • 金融数据仓库中ETL的设计与实现

    硕士论文 摘要:本文首先介绍了ETL的相关技术:数据仓库的体系结构和元数据的定义;然后分析了金融数据的特点和ETL技术在金融数据挖掘中的应用;再根据金融数据的特点,对金融数据的ETL进行了分析。接着结合ETL与数据仓库的关系,明确了金融数据仓库中ETL的功能需求;然后根据ETL的功能需求提出了系统的构建模型,给出了系统的主要模块及模块间的关系,并列举了系统主要类的设计方案以及关键类之间的关系;最后以一个源数据的输入、中间的转化以及最终元数据的生成为例展示了本文设计的ETL在金融数据仓库中的应用。

    5
    202
    3.51MB
    2011-08-30
    27
  • 大型软件系统数据质量问题研究

    硕士论文 摘 要:针对当前大型软件系统因支撑数据的质量问题给整个系统带来的直接或潜在危害,深入分析了产生数据质量问题 的根本原因、易发阶段、严重等级等相关要素,剖析了科学的数据质量管理制度和完备的数据质量管理体系,提出了数据采 集、数据整合、数据清洗、数据挖掘等先进的数据质量控制工作原理。以基于分类模式的数据挖掘技术为例,介绍实现数据 质量控制的典型方法,从而使得大型软件系统在研制和维护过程中可通过所研究的标准、体系和方法基本形成适用于各领 域系统数据质量问题的高效预防措施和最佳解决方案。

    0
    139
    102KB
    2011-08-30
    9
关注 私信
上传资源赚积分or赚钱