![](https://csdnimg.cn/release/download_crawler_static/89416952/bg1.jpg)
红酒数据集分析
摘要
本文介绍了利用统计方法对红酒的数据集进行分析,分析了红酒评分的影响因素,使用
了多元线性回归模型进行拟合,并使用 KNN 对红酒进行了简单的分类。
关键词: 红酒、PH、回归、分类、评分
1 红酒评分与其单一属性的关联性分析
1.1 背景介绍
红葡萄酒(英语:Red wine)是以红色为主的葡萄酒,是选择皮红肉白或皮
肉皆红的酿酒葡萄,采用皮汁混合发酵,然后进行分陈酿而成,色泽成自然宝石
红色、紫红色、石榴红等。红酒的颜色主要来自于葡萄皮中的花色素苷。由于在
发酵制作过程中含有葡萄皮的成分,红葡萄酒有比白葡萄酒有更高的保健价值。
研究表明,摄入适量的红葡萄酒对健康有益,因为皮中含有儿茶素、白藜芦醇等
多酚物质,它们可能降低癌症的发病风险。是目前世界上产量最大、普及最广的
单糖酿造酒,由于其色泽喜庆,更是人们喜欢的葡萄酒之一。
所以红酒的品质和给人带来的味觉上的体验尤为重要,本文通过分析红酒的
一些物理属性值与评分(感觉评分)之间的关系来得出红酒评分的影响因素和分
类标准。
1.2 数据变量分析
红酒的物理属性有 1-非挥发性酸度,2-挥发性酸度,3-柠檬酸,4-残糖,5-
氯化物,6-游离二氧化硫,7-总二氧化硫,8-密度,9-pH 值,10-硫酸盐,11-
酒精十一项属性,评分范围为 0 到 10。
原始数据是以 csv 格式存储,我们首先使用 python 将其以 xlsx 格式存储,
如下图 1.1。
图 1.1 以 xlsx 格式存储数据
首先直观的遍历整个数据集,可以看出评分的范围是从 3 分到 8 分不等,并
且绝大多数的数据是分布在 5 分和 6 分之间。
之后使用 R 软件进行数据的读取,并使用 cor 函数进行相关性分析,代码如