数据挖掘考试题目——关联分析
一、 10 个选择
1. 以下属于关联分析的是( )
A.CPU性能预测 B.购物篮分析
C.自动判断鸢尾花类别 D.股票趋势建模
2. 维克托 ?迈尔 - 舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调
了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙, 与此同时, 我们
更应该注重数据中的相关关系, 而不是因果关系。 其中, 数据之间的相关关系可以通过以下
哪个算法直接挖掘( )
A.K-means B.Bayes Network
C.C4.5 D.Apriori
3. 置信度 (confidence) 是衡量兴趣度度量( )的指标。
A.简洁性 B.确定性
C.实用性 D.新颖性
4.Apriori 算法的加速过程依赖于以下哪个策略( )
A.抽样 B.剪枝
C.缓冲 D.并行
5. 以下哪个会降低 Apriori 算法的挖掘效率( )
A.支持度阈值增大 B.项数减少
C.事务数减少 D.减小硬盘读写速率
6.Apriori 算法使用到以下哪些东东( )
A.格结构、有向无环图 B.二叉树、哈希树
C.格结构、哈希树 D.多叉树、有向无环图
7. 非频繁模式( )
A.其置信度小于阈值 B.令人不感兴趣
C.包含负模式和负相关模式 D.对异常数据项敏感
8. 对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是( )
[ 注:分别以 1、 2、3 代表之 ]
A.3 可以还原出无损的 1 B.2 可以还原出无损的 1
C.3 与 2 是完全等价的 D.2 与 1 是完全等价的
9.Hash tree 在 Apriori 算法中所起的作用是( )
A.存储数据 B.查找
C.加速查找 D.剪枝
10. 以下不属于数据挖掘软件的是( )
A.SPSS Modeler B.Weka
C.Apache Spark D.Knime
二、 10 个填空
1. 关联分析中表示关联关系的方法主要有: 和 。
2. 关联规则的评价度量主要有: 和 。
3. 关联规则挖掘的算法主要有: 和 。
4. 购物篮分析中,数据是以 的形式呈现。
5. 一个项集满足最小支持度,我们称之为 。
6. 一个关联规则同时满足最小支持度和最小置信度,我们称之为 。