【数据仓库与数据挖掘期末考试】试卷主要涵盖了数据仓库设计、数据预处理、数据仓库模式、决策树算法以及文本分析和聚类算法等核心知识点。
一、数据仓库设计中的视图:
数据仓库设计中需要考虑的四种视图包括:操作视图、分析视图、历史视图和细节视图。操作视图反映了业务系统的原始数据,分析视图是根据用户需求定制的汇总数据,历史视图记录了数据随时间的变化,而细节视图则保留了原始数据的全部细节,便于深入查询和分析。
二、数据预处理技术及其作用:
数据预处理包括数据清洗、数据集成、数据转换和数据规约。数据清洗旨在去除数据集中的错误、不完整、不一致或无关的数据。数据集成将来自不同源的数据统一到一个单一的视图中。数据转换将数据转化为适合分析的格式,如数值化、标准化等。数据规约通过降维、抽样等方式减少数据的复杂性,提高处理效率。
三、数据仓库模式:
1. 星型模式:是最简单的关系模式,事实表位于中心,周围环绕着多个维度表,结构直观,查询效率高。
2. 雪花型模式:星型模式的扩展,维度表进一步规范化,减少了数据冗余,但可能导致查询效率下降。
3. 实时星座模式:适用于需要实时分析的场景,它结合了星型和雪花型的特点,能快速响应实时查询。
四、决策树分类算法框架:
决策树算法通常包括选择最佳属性(根据信息增益、基尼不纯度等指标)、划分数据集、构建树结构、处理叶节点(如设置阈值、预测类别)等步骤。这个过程迭代进行,直到满足停止条件(如树深度、叶节点样本数量等)。
五、文本分析与聚类:
1. 计算文档间的距离,例如使用余弦相似度,可以衡量文档特征向量之间的角度,进而确定文档之间的相似度或距离。
2. KMeans聚类算法:目标是找到最佳的k个聚类中心,使得所有文档到其最近的聚类中心的距离之和最小。对于给定的文档集合,可以通过迭代更新聚类中心来达到这个目标。
六、汽车保险费率评估方案设计:
1. 评估事故概率和赔付金额的决策特征可能包括车辆类型、品牌、年限、行驶里程、驾驶员年龄、驾驶记录、RFID数据中车辆的行驶习惯(如经常经过哪些高风险路段)等。
2. 预测模型选择:可以采用逻辑回归模型预测事故概率,用线性回归或随机森林模型预测赔付金额。这些模型能够基于历史数据学习并建立预测关系,以帮助保险公司制定更精确的费率策略。
这些内容涵盖了数据仓库和数据挖掘的基础知识,包括设计、预处理、模型构建和实际应用,对于理解数据驱动的决策支持系统至关重要。在实际的期末考试中,学生需要对这些概念有深入理解和应用能力。