数据分析大作业-红酒数据集的分析
数据分析大作业-红酒数据集的分析 本文主要介绍了对红酒数据集的分析,通过统计方法对红酒的数据集进行分析,研究了红酒评分的影响因素,使用多元线性回归模型进行拟合,并使用 KNN 对红酒进行了简单的分类。 1. 红酒评分与其单一属性的关联性分析 红酒的颜色主要来自于葡萄皮中的花色素苷。研究表明,摄入适量的红葡萄酒对健康有益,因为皮中含有儿茶素、白藜芦醇等多酚物质,它们可能降低癌症的发病风险。红酒的品质和给人带来的味觉上的体验尤为重要,本文通过分析红酒的一些物理属性值与评分(感觉评分)之间的关系来得出红酒评分的影响因素和分类标准。 2. 数据变量分析 红酒的物理属性有 11 项,包括非挥发性酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH 值、硫酸盐、酒精等。评分范围为 0 到 10。使用 Python 将原始数据从 csv 格式转换为 xlsx 格式,之后使用 R 软件进行数据的读取和相关性分析。 3. 相关性分析 通过相关性分析,我们可以得出 x4(4-残糖)、x6(6-游离二氧化硫)、x9(9-pH 值)与评分的相关性不高,可以暂时忽略以达到降维的目的;x2(2-挥发性酸度)、x10(10-硫酸盐)、x11(11-酒精)与评分的相关性较高。其他变量的相关性也可以发现,如酸和 PH 之间的一定联系。 4. 回归分析 我们去除相关性不高的变量,之后对剩余变量进行回归分析。选择相关性较高的三个变量,x2(2-挥发性酸度)、x10(10-硫酸盐)、x11(11-酒精)与评分进行回归分析,可以发现参数全部通过了检验,但是 R 方值为 0.6589,说明拟合程度还不够高。 5. 主成分回归 对数据进行主成分分析,我们取前五个主成分,可以得到五个主成分的表达式。这五个主成分可以较好地捕捉到原始数据的变化趋势。 本文通过对红酒数据集的分析,研究了红酒评分的影响因素,并对红酒进行了简单的分类。这为红酒的生产和质量控制提供了有价值的参考。
剩余9页未读,继续阅读
- 粉丝: 0
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0