2021~ 2021 学年 第二学期期末考试
数据挖掘技术试卷〔A 卷〕参考答案使用班级 1250411/12/13/14 答题时间_120 分钟_
一、填空题 〔共 10 空, 每空 1 分,共 10 分〕
1.数据挖掘的任务:分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。
2.数据集的三个重要特性:_维度、稀疏性、分辨率。
二、判断题 〔共 10 小题,每题 1 分,共 10 分〕
判断以下3~7小题的描述是否正确?
3.ID3算法不仅可以处理离散属性,还可以处理连续属性。〔F〕
4.决策树方法通常用于关联规那么挖掘。〔F〕
5.先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的。〔T〕
6.Clementine是IBM公司的专业级数据挖掘软件。〔T〕
7.具有较高的支持度的项集具有较高的置信度。〔F〕
判断以下 8~12 小题的描述是否属于数据挖掘任务?
8.利用历史数据预测公司将来的股价。 〔 T 〕
9.监测病人心率的异常变化 。 ( F )
10.监测地震活动的地震波 。 ( F )
11.提取声波的频率 。 ( F )
12.根据顾客喜好摆放商品位置。 〔 T 〕
三、简答题〔6 个小题,每题 5 分,共 30 分〕
13. 什么是信息熵?
答:信息熵(entropy)是用来度量一个属性的信息量〔1 分〕。假定 S 为训练集,S 的目标属性 C 具有 m 个可能的类标号值,C={C1,C2,…,Cm},假定训练集 S 中,Ci 在
所有样本中出现的频率为 (i=1,2,3,…,m),那么该训练集 S 所包含的信息熵定义为: 〔3 分〕
熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。〔1 分〕
14.什么是文本挖掘?
答:文本挖掘是一个对具有丰富语义的文本进展分析,从而理解其所包含的内容和意义的过程。〔2 分〕对其进展深入的研究可以极大地提高人们从海量文本数据中提
取信息的能力,具有很高的商业价值。〔1 分〕包括分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等内容。〔2 分〕
15. 什么是主成份分析?
答:主成份分析〔PCA〕是一种用于连续属性的线性变换技术,找出新的属性〔主成份〕,〔1 分〕这些新属性是原属性的线性组合,〔1 分〕是相互正交的,〔1 分〕使
得原来数据投影到较小的集合中,并且捕获数据的最大变差。〔1 分〕PCA 通常提醒先前未曾觉察的联系,解释不寻常的结果。〔1 分〕
16. 简述 k-最近邻算法过程。
答:KNN 分类算法的根本描述如下:
算法名:KNN
输入:最近邻数目 K ,训练集 D,测试集 Z 〔1 分〕
输出:对测试集 Z 中所有测试样本预测其类标号值 〔1 分〕
(1)for 每个测试样本 〔1 分〕 do
(2) 计算 z 和每个训练样本 之间的距离 〔1 分〕
(3) 选择离 z 最近的 k 最近邻集合 〔1 分〕
(4) 返回 中样本的多数类的类标号 〔1 分〕
(5)end for
17. 简述 Apriori 算法原理。
答:Apriori 性质:一个项集是频繁的,那么它的所有子集都是频繁的。〔1 分〕一个项集的支持度不会超过其任何子集的支持度。〔1 分〕该算法采用逐层的方法找出
频繁项集,〔1 分〕首先找出 1 频繁-项集,通过迭代方法利用频繁 k-1-项集生成 k 候选项集,〔1 分〕扫描数据库后从候选 k-项集中指出频繁 k-项集,直到生成的候选
项集为空。〔1 分〕
18. 什么是离群点?
答:离群点是在数据集中偏离大局部数据的数据,〔2 分〕使人疑心这些数据的偏离并非由随机因素产生,〔1 分〕而是产生于完全不同的机制。〔2 分〕
四、计算题 〔共 2 题,每题 20 分,共 40 分〕
19.数据集如下表:
1 2 2
1
( ) ( , ,..., ) log
m
m i i
i
Entropy S Entropy p p p p p
=
= = -
å
评论0
最新资源