在大数据时代,数据挖掘成为了一项至关重要的技能,它能帮助我们从海量数据中发现有价值的信息和模式。以下是一些关于数据挖掘的关键知识点:
1. 数据预处理:这是数据挖掘流程中的关键步骤,包括数据清洗(去除噪声和不一致性)、数据集成(合并来自不同源的数据)、数据变换(如标准化或规范化)、数据归约(减少数据复杂性,如特征选择),目的是提高后续分析的效率和准确性。
2. 数据归约:选择题中提到,数据归约的目的是缩小数据的取值范围,以适应数据挖掘算法,并保持分析结果不变。这通常通过降维、采样或转换来实现。
3. 关联规则发现:在超市销售数据中发现啤酒和尿布的关联规则,这是一种典型的关联规则学习问题,用于找出项集之间的频繁模式。
4. 分类与预测:建立模型以预测未知变量值的任务属于预测建模,如销售预测、信用评分等。
5. 聚类:当没有标签时,可以使用聚类技术将相似数据分组,如K-means、层次聚类等。
6. 预测精度与召回率:Precision(精确率)描述了预测为正类的样本中实际为正类的比例,而Recall(召回率)是实际正类中被预测出来的比例。
7. 数据预处理方法:变量代换、离散化、聚集是常见的数据预处理手段,而估计遗漏值并不属于这一类别,而是数据清洗的一部分。
8. 等频(等深)划分:在等频划分中,数据被均匀地分配到各个箱子里。对于给定的顺序数据,15会位于第二个箱子里。
9. 数据属性类型:标称、序数和区间属性是数据的三种基本类型,而“相异”并不是一个标准的属性类型。
10. 非对称的二元属性:这种属性只有非零值有意义,例如性别属性(男性、女性),其中零值通常表示信息缺失。
11. 特征选择方法:嵌入、过滤、包装是特征选择的常用策略,而抽样通常用于训练数据的选取,而非特征选择。
12. 创建新属性的方法:特征提取、映射数据到新的空间和特征构造是创建新属性的方法,特征修改不属于这一范畴。
13. 映射数据到新空间:傅立叶变换是一种常见的数据转换方法,将数据转换到频域,以便更好地分析。
14. 最大最小规化:这是一种数值规约方法,将属性值映射到0到1之间。73600元映射后的值为0.716。
15. 众数:在一组数据中出现次数最多的值称为众数。在这个例子中,一年级人数最多,所以一年级是众数。
16. 时间空间数据可视化技术:等高线图、曲面图和矢量场图常用于时间空间数据,而饼图主要用于展示部分与整体的关系,不适合时间空间数据。
17. 渐进抽样:在样本容量难以确定的情况下,渐进抽样允许逐步增加样本,以更准确地估计总体参数。
18. 数据仓库的时间变化:数据仓库随时间不断更新,存储历史数据,但不包含实时或最近的数据,因此描述不正确的是C选项,数据仓库不会不断增加新的数据容量。
以上就是从提供的数据挖掘试题中提炼出的一些关键知识点,涵盖了数据预处理、分类、聚类、属性类型、特征选择等多个方面。这些知识点是理解和应用数据挖掘技术的基础。