作者:MetaTrade

HADOOP数据仓库

  • 数仓特点
    • 面向主题:为数据分析提供服务,根据主题将原始数据集合在一起,属于OLAP在线分析处理系统,主要操作是批量读写,关注数据整合,以及分析、处理性能;会有意引入冗余,采用反范式方法设计
    • 集成:原始数据来源不同,需要整合成最终的数据,需要经过抽取、清晰、转换的过程
    • 非易失:保存的数据是一系列历史快照,不允许修改,只允许通过工具进行查询和分析
    • 时变性:数仓会定期接收、集成新的数据,从而反映出数据的最新变化
  • 为什么要分层
    • 分层的核心思想就是解耦,把复杂的问题简单化
    • 业务需求逻辑五花八门,重复建设问题严重,清洗规则混轮,业务逻辑无法复用,造成资源浪费
    • 数据故障难以评估范围,修复时间长
    • 数据膨胀导致计算资源紧张,产出时间无法保证
    • 无法屏蔽业务变动影响,修改一次业务就需要重新接入数据,影响整个数据
    • 分层的好处
      • 数据结构清晰:每一层都有它的作用域,方便定位问题
      • 数据血缘追踪:精准定位
      • 空间换时间:建设多层数据模型提供给用户使用,避免用户直接使用操作性数据库,有效访问数据
      • 减少重复开发:开发通用中间层,减少重复计算
lock