《大数据时代下的数据挖掘》试题及答案[定义].pdf资源-CSDN文库

版权申诉

81 浏览量 2021-10-11 05:45:44 上传评论收藏 97KB PDF 举报

数据挖掘在大数据时代扮演着至关重要的角色，它是一种从海量数据中发现有价值信息的技术。《大数据时代下的数据挖掘》这本教材或试题集主要涵盖了数据挖掘的基础知识和实践应用。 1. 数据归约（Data Reduction）是数据预处理的一个重要步骤，其目的是减少数据的复杂性，比如缩小数据的取值范围，但保持原始数据的主要特性，以便更有效地运行数据挖掘算法。 2. 关联规则发现（Association Rule Learning）是数据挖掘中的一种问题类型，例如超市销售数据中发现的“买啤酒的人很可能也会买尿布”现象，就是关联规则的例子。 3. Precision（精确率）和Recall（召回率）是评估分类算法性能的两个关键指标。精确率描述的是预测为正类的样本中真正为正类的比例，而召回率则表示所有真正正类样本中被正确识别的比例。 4. 数据预处理（Data Preprocessing）包括数据集成、变换、维度规约和数值规约等步骤，这是在进行频繁模式挖掘、分类和预测等任务之前必需的准备工作。 5. 当未知数据标签时，可以使用聚类（Clustering）技术将相似数据分组，使得同类标签的数据在一起。 6. 预测建模（Predictive Modeling）指的是通过建立模型，基于已知的变量值预测未知变量的值，如根据历史销售数据预测未来的销售额。 7. 数据预处理方法不包括估计遗漏值（Imputation），而通常包括变量代换、离散化和聚集等。 8. 等频（等深）划分数据时，15将位于第二个箱子内，因为这种方法是平均分配数据到各个箱子里。 9. 数据属性类型中，相异（Nominal）属性表示名义上的类别，序数（Ordinal）属性代表有序的类别，区间（Interval）属性表示数值之间有等差关系，而“相异”不属于这些类型。 10. 非对称的二元属性（Asymmetric Binary Attribute）是指只有非零值有意义的二元属性，例如在疾病检测中，阴性结果（非零值）是重要的。 11. 抽样（Sampling）不属于特征选择的标准方法，嵌入法、过滤法和包装法是常见的特征选择策略。 12. 特征修改（Feature Modification）不属于创建新属性的方法，特征提取、映射数据到新空间和特征构造是常见的方法。 13. 傅立叶变换（Fourier Transform）是一种将数据映射到新空间的方法，常用于信号处理和图像分析。 14. 最大最小规范化（MinMax Scaling）将属性值映射到0-1范围内，73600元对应的转换值是0.716。 15. 众数（Mode）是一组数据中出现次数最多的值，在给定的年级人数中，一年级出现次数最多，所以众数是一年级。 16. 饼图（Pie Chart）并不适合用于可视化时间空间数据，等高线图、曲面图和矢量场图更适合这类数据的展示。 17. 渐进抽样（Sequential Sampling）在样本容量难以确定时是一个实用的选择，允许随着数据的收集逐步增加样本。 18. 数据仓库随着时间的推移不断添加新数据，但不会删去旧的数据内容，而是保留历史快照，以便进行数据分析和决策支持。 19. 数据粒度越小，数据单元越详细，级别越高，这是一个常见的误解。实际上，粒度更细意味着更详细的信息，但级别更低。以上知识点涵盖了数据挖掘的基本概念、数据预处理技术、评估指标、聚类、分类、预处理方法以及数据仓库和数据粒度的理解。这些都是软件开发人员在进行大数据分析时需要掌握的核心技能。

资源推荐

资源评论