2
No.1 No.1 管理大量数据的能力管理大量数据的能力
数据仓库的数据规模
• 从GB(Gigabytes)到TB(Terabytes)到
PB(Petabytes)
管理大量数据的基本要求
P8
《数据仓库与数据挖掘》
• 能够管理大量数据的能力
—
• 能够管理好大量数据的能力——效率
管理大量数据的方法
• 索引+溢出数据
No.2 No.2 能够管理多种介质能够管理多种介质
考虑数据量和访问频率因素,数据仓库中的
数据应该存放在多种层次的存储设备上。
主存 非常快 非常贵
扩展内存 非常快 贵
P9
《数据仓库与数据挖掘》
磁盘 快 适中
磁带 不快 不贵
近线存储 不快 不贵
光盘 不慢 不贵
缩微胶片 慢 便宜
No.3 索引和监控数据
支持灵活、不可预测的数据访问
索引——方便查询
• 必要的索引:二级索引、稀疏索引、动态索引、临时索
引,等。
• 建立和使用索引代价不能过高
P10
《数据仓库与数据挖掘》
:
• 是否需要重组数据
• 索引是否恰当
• 是否有太多或不足数据在溢出区中
• 数据存取的统计成分
• 剩余的可用空间
DB中的事务处理监控?
No.4 No.4 多种技术的接口多种技术的接口
用不同技术接收和传送数据
• 数据传输流程:DBODSDWDMDSS
支持批处理方式
• (DB DW存在延迟)几乎不要求在线传送
不同技术的接口要求考虑如下几个因素:
P11
《数据仓库与数据挖掘》
• 数据能否很容易地从一个DBMS传送到另一个DBMS?
• 数据能否很容易地从一个OS传送到另一个OS?
• 在传送过程中数据是否需要改变它的格式?
• 数据多维空间的处理通道能否容易地实现?
• 能否选择增量数据传送,而不是传送整个表?
• 数据在传送到其它环境中时是否有内容丢失?
No.5 No.5 对数据存放位置的控制对数据存放位置的控制
考虑到访问效率和更新问题
• 允许程序员/设计者在物理的块/页一级上对数
据的存放进行控制,放到任何它认为合适的地
方。
P12
《数据仓库与数据挖掘》
。
No.6 No.6 数据的并行存储和管理数据的并行存储和管理
并行可提高性能(性能与物理数目成反比)
• 核心问题:加速比和扩展比
timeelapsed system large
timeelapsed system small
speedup
timeelapsed problem small system small
P13
《数据仓库与数据挖掘》
• 影响因素:启动代价、互干扰、偏斜
并行使得可管理的数据量显著增长,当数据能
够并行管理时,管理的数据容量是没有限制的
。
timeelapsed problem big system big
评论0
最新资源