没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘期末参考.docx
资源详情
资源评论
资源推荐
数据挖掘复习参考
一、需要掌握的概念
1. 某超市研究销售纪录数据后发现,买鸡蛋的人很大概率也会购买牛奶,这种属于数据
挖掘的关联规则发现。
2. 关联规则分析又称购物篮分析,最早是为了发现超市销售数据库中不同商品之间的 关
联关系 。
3. Apriori 算法是掘频繁项集的原创性算法,它通过限制 候选项集 来产生发现频繁项集。
4. 训练分类器的目的是使学习到的模型不仅对已知数据而且对未知数据都有很好的 预测
能力。
5. 基于密度的方法定义了邻域的半径范围,邻域内的对象数目超过某限定值则添加到 簇
中。
6. 将原始数据进行集成、变换、维度规约、数值规约是在数据预处理步骤中的任务。
7. Python 的第三方模块很丰富,Numpy 提供 数组 支持以及相应的处理函数。
8. 数据归约的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得
到和原始数据相同的分析结果。
9. 下面购物篮能够提取的 3-项集的最大数量是 3。
ID 购买项:(1) 牛奶、啤酒、尿布;(2) 面包、黄油、牛奶;(3) 牛奶、尿布、饼干; (4) 面
包、黄油、饼干;(5) 啤酒、饼干、尿布;(6) 牛奶、尿布、面包、黄油;(7) 面包、黄油、
尿布;(8) 啤酒、尿布;(9) 牛奶、尿布、面包、黄油;(10) 啤酒,饼干。
10. Matplotlib 是 Python 的一套基于 NumPy 的 绘图 工具包。
11. 在 Python 中绘制散点分布图的函数是 sca%er() 。
12. 数据挖掘所处理的数据必须具有准确性、 完整性 和一致性等性质。
13. 噪声的处理方法一般有 分箱 、回归和离群点分析等方法。
14. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚
类类型称作划分聚类。
15. 在基本 K 均值算法里,当邻近度函数采用曼哈顿距离的时候,合适的质心是簇中各点的
中位数。
16. 舆情研判,信息科学侧重互联网文本挖掘和分析技术,社会和管理科学侧重突发群体事
件管理中的群体心理行为及舆论控制研究,新闻传播学侧重对舆论的本体进行规律性的探
索和研究。
17. 发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持
度和最大支持度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估
关联规则
18. 设 X={1,2,3}是频繁项集,则可由 X 产生 6 个关联规则。
19. DBSCAN 算法最大的挑战是确定半径及 MINPTS。
二、单项选择题
1.下面哪种不属于数据预处理的方法? (D)
A.变量代换 B. 离散化 C. 聚集 D. 估计遗漏值
2. 下面代码的输出结果是(B )。
s =[ "seashell", "gold", "pink", "brown", "purple", "tomato"]
print(s[ 1: 4])
A. [‘gold’ ,’ brown’ ] B. ['gold', 'pink', 'brown']
C. [‘ gold’ ,’ pink’ ,’ brown’ ,’ purple’] D. [‘ gold’ ,’ brown’]
qq_45843643
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0