数据挖掘期末参考.docx_合工大数据挖掘试卷资源-CSDN文库

需积分: 10 53 浏览量 2021-06-12 13:09:44 上传评论 1 收藏 28KB DOCX 举报

资源详情

资源评论

资源推荐

数据挖掘复习参考

一、需要掌握的概念

1. 某超市研究销售纪录数据后发现，买鸡蛋的人很大概率也会购买牛奶，这种属于数据

挖掘的关联规则发现。

2. 关联规则分析又称购物篮分析，最早是为了发现超市销售数据库中不同商品之间的关

联关系。

3. Apriori 算法是掘频繁项集的原创性算法，它通过限制候选项集来产生发现频繁项集。

4. 训练分类器的目的是使学习到的模型不仅对已知数据而且对未知数据都有很好的预测

能力。

5. 基于密度的方法定义了邻域的半径范围，邻域内的对象数目超过某限定值则添加到簇

中。

6. 将原始数据进行集成、变换、维度规约、数值规约是在数据预处理步骤中的任务。

7. Python 的第三方模块很丰富，Numpy 提供数组支持以及相应的处理函数。

8. 数据归约的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得

到和原始数据相同的分析结果。

9. 下面购物篮能够提取的 3-项集的最大数量是 3。

ID 购买项：(1) 牛奶、啤酒、尿布；(2) 面包、黄油、牛奶；(3) 牛奶、尿布、饼干； (4) 面

包、黄油、饼干；(5) 啤酒、饼干、尿布；(6) 牛奶、尿布、面包、黄油；(7) 面包、黄油、

尿布；(8) 啤酒、尿布；(9) 牛奶、尿布、面包、黄油；(10) 啤酒，饼干。

10. Matplotlib 是 Python 的一套基于 NumPy 的绘图工具包。

11. 在 Python 中绘制散点分布图的函数是 sca%er() 。

12. 数据挖掘所处理的数据必须具有准确性、完整性和一致性等性质。

13. 噪声的处理方法一般有分箱、回归和离群点分析等方法。

14. 简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚

类类型称作划分聚类。

15. 在基本 K 均值算法里，当邻近度函数采用曼哈顿距离的时候，合适的质心是簇中各点的

中位数。

16. 舆情研判，信息科学侧重互联网文本挖掘和分析技术，社会和管理科学侧重突发群体事

件管理中的群体心理行为及舆论控制研究，新闻传播学侧重对舆论的本体进行规律性的探

索和研究。

17. 发现关联规则的算法通常要经过以下三个步骤：连接数据,作数据准备；给定最小支持

度和最大支持度，利用数据挖掘工具提供的算法发现关联规则；可视化显示、理解、评估

关联规则

18. 设 X={1，2，3}是频繁项集，则可由 X 产生 6 个关联规则。

19. DBSCAN 算法最大的挑战是确定半径及 MINPTS。

二、单项选择题

1.下面哪种不属于数据预处理的方法？ (D)

A．变量代换 B. 离散化 C. 聚集 D. 估计遗漏值

2. 下面代码的输出结果是（B ）。

s =[ "seashell", "gold", "pink", "brown", "purple", "tomato"]

print(s[ 1: 4])

A. [‘gold’ ,’ brown’ ] B. ['gold', 'pink', 'brown']

C. [‘ gold’ ,’ pink’ ,’ brown’ ,’ purple’] D. [‘ gold’ ,’ brown’]

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论0

内容反馈

qq_45843643

粉丝: 0
资源: 1

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip