基于wine数据集的数据分析报告(R语言).doc
《数据仓库与数据挖掘》课程论文 基于Wine数据集的数据分析报告 专业:计算机科学与技术 二〇一五年五月二十五日 基于wine数据集的数据分析报告 摘 要:数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的 过程。在大数据时代,如何从海量数据中挖掘有用信息成为了信息产业的热门话题。作 为数据挖掘课程内容的回顾与应用,本文对wine数据集进行了数据探索性分析,并将数 据挖掘的决策树、支持向量机、聚类等常用方法应用于具体的数据挖掘任务,并取得了 较好的效果。 关 键 词:wine数据集、决策树、支持向量机、聚类 引言 数据挖掘(Data mining),又译为资料探勘、数据挖掘、数据采矿。数据挖掘一般是指从大量的数据中 自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处 理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。在大数据 时代,如何从海量数据中挖掘有用信息成为了信息产业的热门话题。本文作为数据挖掘 课程内容的回顾与应用,将数据挖掘的理论与方法运用于具体的数据挖掘任务中,并取 得较好的效果。 本次实验选择的数据集为wine数据集。本文首先对其进行了数据探索性分析,包括: 数据概括、变量分布、离群点、缺失值、相关性等,并运用了适当的图形进行描述,然 后在探索性分析的基础上,采用了决策树、支持向量机、聚类等方法进行了分类预测, 并比较了不同方法的分类效果。 数据探索性分析 1 数据概况 本次实验选用的数据集为UCI的Wine Quality数据集中white wine的4898条数据,每条数据有12种属性,分别为:fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free sulfur dioxide, total sulfur dioxide, density, pH, sulphates, alcohol, quality. 其中,quality为输出,以0到10之间的数字来表示酒的品质。 实验使用RStudio软件将数据集读入,并使用summary命令概括数据集概况。如图一所 示,summary概括了数据集中各个变量的平均值、中位数、最大值、最小值等信息。 图1 数据概括 2 变量分布 使用hist()绘制各变量的直方图。如图二所示,直方图直观的展示了变量的分布情况 。 图2 变量直方图 直方图只能对变量进行直观的描述,而变量是否满足正态分布则需要正态性验证。使 用shapiro test对各变量进行正态验证,通过查看结果中的p- value值就可以得到变量是否符合正态分布。如果p- value值大于0.05即符合正态分布,而对所有变量进行shapiro test得到p- value均不大于0.05,所以wine数据集各特征均不是正态分布。 3 离群点分析 箱形图(Box- plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计 图。主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四 分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。箱形图的异常值就可以 可视化的展示数据集中的离群点。图3展示了各变量的离群点分布情况,可以看出离群点 较多,可能对预测产生影响。 图3 变量箱形图 4 缺失值分析 Wine数据集不含有缺失值。 5 相关性分析 数据集中各变量间的相关性关系可由cor()函数计算出的协方差矩阵来表示,如表4所 示。 表1 协方差矩阵表 "ROW "1 "2 " " "正确率 "MAE "正确率 "MAE " "决策树 "0.83 "0.2 "0.57 "0.51 " "支持向量 "0.61 "0.44 "0.57 "0.48 " "机 " " " " " 通过表二可以看出,两种模型的分类精度都比较低。再回顾数据探索性分析中关于离 群点部分的内容可知,数据集中含有大量离群点。而决策树与支持向量机属于对离群点 非常敏感的模型,这可能就是分类精度较低的原因。所以需要选用一种能够克服离群点 影响的模型来对wine数据集进行预测,因此我们选用了class包中的1- 近邻模型来进行分类预测,结果如表3所示,可以看出分类效果有提高。 表3 直接分类预测结果 "模型 "训练集 "测试集 " " "正确率 "MAE "正确率 "MAE " "决策树 "0.83 "0.2 "0.57 "0.51 " "支持向量 "0.61 "0.44 "0.57 "0.48 " "机 " " " " " "1-近邻 " " "0.61 "0.45 该数据分析报告基于Wine数据集,这是一个常用的多变量分析数据集,包含白葡萄酒的4898个样本,每个样本有12个属性,用于预测葡萄酒的品质。报告重点介绍了数据挖掘过程,包括数据探索性分析(EDA)以及几种常见算法的应用,如决策树、支持向量机和聚类。 在数据探索性分析阶段,首先对数据进行了概述,使用R语言的summary函数获取了数据的基本统计信息。接着,通过hist()函数绘制直方图来观察变量的分布,结果显示所有变量都不符合正态分布。此外,使用箱形图检测离群点,发现数据集中存在较多离群点,这些离群点可能对后续的预测分析产生影响。由于Wine数据集没有缺失值,因此无需进行缺失值处理。通过计算协方差矩阵来评估变量之间的相关性,这对于选择合适的预测模型至关重要。 在模型构建部分,报告对比了决策树和支持向量机两种分类方法的性能。结果显示,两者的分类准确率和平均绝对误差(MAE)都相对较低,可能是因为数据集中的离群点对这两种对离群点敏感的模型产生了负面影响。为解决这个问题,报告中采用了一种对离群点不那么敏感的1-近邻(KNN)模型,结果表明分类效果有所提升。 总结来说,该报告涉及的知识点包括: 1. 数据挖掘基础:数据挖掘是从大量数据中提取有价值信息的过程,包括关联规则学习等方法。 2. 数据探索性分析:包括数据概括、变量分布、离群点检测、缺失值检查和相关性分析,这些是理解数据特性的基础步骤。 3. 正态性检验:使用Shapiro-Wilk测试判断变量是否符合正态分布。 4. 离群点分析:通过箱形图识别并分析数据集中的离群点。 5. 缺失值处理:Wine数据集无缺失值,但这是数据分析中常见的问题,需要考虑如何处理。 6. 相关性分析:通过协方差矩阵评估变量间的关系。 7. 分类模型:决策树、支持向量机和KNN模型的比较,特别是离群点对模型性能的影响。 8. 模型评估:使用正确率和MAE作为性能指标,评估模型预测的准确性。 这些知识点对于理解和应用数据挖掘技术至关重要,特别是在大数据时代,有效地从复杂数据中提取有价值信息是计算机科学和技术领域的重要技能。
- 粉丝: 192
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
- 1
- 2
前往页