【实验81数据分析.doc】是一个关于数据挖掘与分析的实验文档,主要目的是让学习者理解数据挖掘流程,掌握数据探索和预处理技术,并通过使用PHSTAT和WEKA这两个软件进行实际操作。实验内容包括对银行资产评估数据进行数据质量分析和数据特征分析。
1. 数据质量分析:
- 在Excel中,可以通过条件格式法或查找定位功能找到包含缺失值的记录。条件格式法是选取数据范围,设置条件规则为空值,然后自定义格式以高亮显示缺失值。而查找定位则直接在“查找和选择”对话框中选择“空值”。
- 使用PHSTAT软件绘制“ine”(收入)属性的箱线图和点比例图,这有助于识别异常值。箱线图展示了数据的四分位数,而点比例图则可直观看出每个数据点的位置。通过设定阈值,如Whisker上下限,可以筛选出异常值。
- Whisker上下限可以通过计算四分位数来确定,例如最小值、最大值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)。异常值通常定义为低于Q1-1.5*(Q3-Q1)或高于Q3+1.5*(Q3-Q1)的数据点。然后,使用Excel的高级筛选功能,根据设定的条件找出这些异常值。
2. 数据特征分析:
- 针对"age"属性,需要进行分布分析,这通常包括计算年龄的频数分布,以及描述性统计量,如均值、中位数、标准差等。同时,绘制年龄的直方图,以便可视化数据的分布情况。
- 分析"age"的三个年龄组(青年、中年、老年),并使用Excel的图表工具和PHSTAT软件绘制直方图,对比不同年龄段的分布特征。
- 对于"ine"属性,按年龄分组后,计算各年龄段的收入汇总,并统计各组购买理财方案的数量。这有助于发现购买理财方案的主要人群,即收入较高或特定年龄段的客户。
这个实验涵盖了数据预处理的关键步骤,包括缺失值处理和异常值检测,以及对数据特征的深入探索。通过这样的实践,学生可以更好地理解和应用数据挖掘的基本工具和技术,为后续的数据分析和建模打下基础。