(完整版)数据挖掘考试题库.docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中提取隐含的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的功能包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。 数据仓库设计的三级模型包括概念模型设计、逻辑模型设计和物理数据模型设计。概念模型设计在较高的抽象层次上的设计,主要内容包括界定系统边界和确定主要的主题域。逻辑模型设计的主要内容包括分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。物理数据模型设计的主要内容包括确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。 数据预处理是为了提高数据挖掘的效率和准确程度,通过对原始数据进行清洗、集成、变换和归约等步骤来获得高质量的数据。数据清洗包括填充空缺值、识别孤立点、去掉噪声和无关数据等。数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中。数据变换是将原始数据转换成为适合数据挖掘的形式。数据归约是缩小数据的取值范围,使其更适合于数据挖掘算法的需要。 数据清理的基本内容包括赋予属性名和属性值明确的含义、统一多数据源的属性值编码、去除无用的惟一属性或键值、去除重复属性、去除可忽略字段、合理选择关联字段和去掉数据中的噪音、填充空值、丢失值和处理不一致数据等。 处理空缺值的方法有忽略该记录、去掉属性、手工填写空缺值、使用默认值、使用属性平均值、使用同类样本平均值和预测最可能的值等。 分箱的方法有统一权重法、统一区间法、最小熵法和自定义区间法等。数据平滑的方法有平均值法、边界值法和中值法等。 数据规范化是将数据按比例缩放,使之落入一个特定的区域。规范化的常用方法有最大-最小规范化、零-均值规范化和小数定标规范化等。 数据归约的方法有数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层等。维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。 聚类是将物理或抽象对象的集合分组成为多个类或簇的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行。
- 粉丝: 108
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助