没有合适的资源?快使用搜索试试~ 我知道了~
太原理工大学数据挖掘考试题库完整版.pdf
需积分: 0 4 下载量 171 浏览量
2023-10-27
19:53:47
上传
评论
收藏 219KB PDF 举报
温馨提示
试读
11页
太原理工大学数据挖掘考试题库完整版
资源推荐
资源详情
资源评论
.
.
. .jz.
1. 数据仓库:是一种新的数据处理体系构造,是面向主题的、集成的、不可更新
的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提
供所需的集成信息。
2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
3. OLAP:OLAP 是在 OLTP 的根底上开展起来的,以数据仓库为根底的数据分析处
理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧
重对分析人员和高层管理人员的决策支持。
4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存
放在数据仓库中的数据量的大小,同时影响数据仓库所能答复查询问题的细节
程度。
5. 数据规化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域〔如
0-1〕以提高数据挖掘效率的方法。规化的常用方法有:最大-最小规化、零
-均值规化、小数定标规化。
6. 关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项
或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进展
预测。
7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐
含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
8. OLTP:OLTP 为联机事务处理的缩写,OLAP 是联机分析处理的缩写。前者是以数
据库为根底的,面对的是操作人员和低层管理人员,对根本数据进展查询和增、
删、改等处理。
9. ROLAP:是基于关系数据库存储方式的,在这种构造中,多维数据被映像成二维
关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。
10. MOLAP:是基于类似于“超立方〞块的 OLAP 存储构造,由许多经压缩的、类似
于多维数组的对象构成,并带有高度压缩的索引及指针构造,通过直接偏移计
算进展存取。
11. 数据归约:缩小数据的取值围,使其更适合于数据挖掘算法的需要,并且能够
得到和原始数据一样的分析结果。
12. 广义知识:通过对大量数据的归纳、概括和抽象,提炼出带有普遍性的、概括
性的描述统计的知识。
13. 预测型知识:是根据时间序列型数据,由历史的和当前的数据去推测未来的数
据,也可以认为是以时间为关键属性的关联知识。
14. 偏差型知识:是对差异和极端特例的描述,用于提醒事物偏离常规的异常现象,
如标准类外的特例,数据聚类外的离群值等。
.
.
. .jz.
15. 遗传算法:是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这
个群体通过模拟生物进化的选择、穿插、变异等遗传操作遗传到下一代群体,
并最终到达全局最优。
16. 聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得
在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差异较大。
聚类:通过聚类分析可以检测孤立点,将类似的值组织成群或“聚类〞,直观
看,落在聚类之外的值被看成孤立点。
17. 决策树:是用样本的属性作为结点,用属性的取值作为分支的树构造。它是分
类规那么挖掘的典型方法,可用于对新样本进展分类。
18. 相异度矩阵:是聚类分析中用于表示各对象之间相异度的一种矩阵,n 个对象
的相异度矩阵是一个 nn 维的单模矩阵,其对角线元素均为 0,对角线两侧元素
的值一样。
19. 频繁项集:指满足最小支持度的项集,是挖掘关联规那么的根本条件之一。
20.支持度:规那么 A→B 的支持度指的是所有事件中 A 与 B 同地发生的的概率,即
P(A∪B),是 AB 同时发生的次数与事件总次数之比。支持度是对关联规那么重
要性的衡量。
21. 可信度:规那么 A→B 的可信度指的是包含 A 项集的同时也包含 B 项集的条件概
率 P(B|A),是 AB 同时发生的次数与 A 发生的所有次数之比。可信度是对关联
规那么的准确度的衡量。
22.关联规那么:同时满足最小支持度阈值和最小可信度阈值的规那么称之为关联
规那么。
23 计算机和人工检查结合:通过结合的方法识别孤立点。
24 回归(regression):利用拟合函数(回归函数)来平滑数据。如找出两个变量的“最
正确〞直线。涉及多个变量的多线性回归是进一步扩展,即找多维面。回归出适合的
数据方程式,进而帮助消除噪声。
25 数据集成:需要统一原始数据中的所有矛盾之处,如字段的:同名异义、同名同
义、单位不统一、字长不一致,从而把原始数据在最低层上加以转换、提炼和集
成。
常见数据集成:
– 模式集成:如不同库中的 id 或 Number 对应〔元数据一致可防止模式集
成中的错误);
– 冗余问题:另一个表导出的属性,命名不一致导致的;
26 数据变换:将数据转换成适合于挖掘的形式,主要是找到数据的特征表示,对
数据进展格式化处理,用维变换或转换方式减少有效变量的数目〔降维〕或找到
数据的不变式
•
常见的数据变换:
.
.
. .jz.
1
平滑〔smoothing〕:去掉数据中的噪声,如用分箱、聚类和回归;
2 聚集:对数据进展汇总和聚集
如聚集日销售数据,计算月或年销售额
〔为多粒数据度分析准备数据立方体〕
1 数据概化:利用概念分层,用高层次概念替换低层次“原始〞数据,如
分类属性:街道用城市或国家替换;
数值属性,年龄用老、中、青替换。
27 数据管理框架/系统构造
a) 基于关系数据库:
Oracle〔双机热备〕、MS SQL 〔GPS 数据〕
– 基于文件系统:
将主要数据分目录/分类存在文件系统中
– 基于云计算平台/NoSQL 数据库:
存在 HBase 等 NoSQL 或分布式文件系统
– 混合构造:多种数据管理技术
• 各系统构造均支持如下功能:
数据模型、数据预处理与集成、数据查询、存储与索引等。
28 计算智能:是以生物进化的观点认识和模拟智能。按照这一观点,智能是在生物
的遗传、变异、生长以及外部环境的自然选择中产生的。在用进废退、优胜劣汰的过
程中,适应度高的〔头脑〕构造被保存下来,智能水平也随之提高。因此说计算智能
就是基于构造演化的智能。
• 主要方法:人工神经网络〔第 7 章,P155-182)、遗传算法、遗传程序、演化程
序、局部搜索等,当前主要研究方向有群智能、模糊逻辑/推理等。
• 这类方法的特点是通过自适应学习的特性,这些算法到达了全局优化的目的,
有些算法容易陷入局部最优,有时也专门求次优解。
28 决策支持:即决策支持系统(decision support system ,简称 dss)是辅助决
策者通过数据、模型和知识,以人机交互方式进展半构造化或非构造化决策的计
算机应用系统。
29 DSS 是管理信息系统(MIS)向更高一级开展而产生的先进信息管理系统。它为决
策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源
和分析工具,帮助决策者提高决策水平和质量。
30 决策按其性质可分为如下 3 类:
a) 构造化决策,是指对某一决策过程的环境及规那么,能用确定的模型或
语言描述,以适当的算法产生决策方案,并能从多种方案中选择最优解的决
策;
31 典型的物联网智能决策应用模式
32 体系构造:主要由四个局部组成:数据局部:一个数据库系统;模型局部:模型
剩余10页未读,继续阅读
资源评论
温柔-的-女汉子
- 粉丝: 1029
- 资源: 4018
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- pod-tomcat.yaml
- This module implements the Requests API.
- Delphi 12 控件之unidac-10.2.1-d29pro.exe
- keyword.other.package.java
- Apple//DTD PLIST 1.0//EN
- comment.block.documentation.rust
- there is no way to distinguish perfectly
- 数据库管理工具:dbeaver-ce-24.0.2-x86-64-setup.exe
- Objective-C.tmLanguage
- 数据库管理工具:dbeaver-ce-24.0.2-macos-x86-64.dmg
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功