基于机器学习的葡萄酒评价以及分析内含数据集和源码.doc资源-CSDN文库

版权申诉

135 浏览量 2024-05-02 18:08:11 上传评论收藏 1.07MB DOC 举报

资源推荐

资源详情

资源评论

葡萄酒的评价

摘要

近年以来，经济迅速发展，人均 GDP 不断提高，人民对葡萄酒质量的要求越来越高。

本文就 A 题所给的的资质评酒员对葡萄酒的打分以及葡萄酒、葡萄所含的理化指标进行

分析、讨论，建立数学学模型，得到葡萄酒的评价标准。

首先，对于问题一，对附件一中两组评酒员对白、红葡萄酒 55 个样品的评分结果

进行统计分析得到各个样品的分数均值，建立原假设 H

与对立假设 H

，在检验水平为

0.05 的情况下进行 F 检验，用 Excel 进行单因素方差分析，从而得到 P-Value 的值，由

其正负可判断两组评分无显著性差异。用 Excel 处理数据得到各个样品数据分布的离散

趋势测度，比较数据的方差与极差的大小，可得到第二组评分结果更可信。

其次，对于问题二，对附件二中葡萄的理化指标进行简单的相关性分析，为了满足

SPSS 解决问题的最大容量以及问题的简化将同类的指标进行聚类，得到简化的酿酒葡萄

理化指标。在建立酿酒葡萄、葡萄酒质量与葡萄的关系时把葡萄酒的质量也作为一个重

要因子进行因子分析，运用 SPSS16.0 统计分析软件计算出相关系数阵的特征值、贡献

率、累计贡献率、因子载荷矩阵等，最终求得综合评价值并据此进行排序得到葡萄的划

分等级。

然后，针对问题三，采用多元线性回归模型，为了避免出现多重共线性问题需要对

因子进行相关性分析，将显著相关的因子归为一类。我们将葡萄的理化指标看做自变量，

葡萄酒的理化指标看做因变量，通过 SPSS 统计分析软件求得符合 F 和 t 标准的理化指

标，构成因变量的相应影响因子。根据回归系数估计及其检验表可以得出多元线性回归

方程，以此来反映葡萄及葡萄酒理化指标之间的联系。

最后，本文针对问题四也采用多元线性回归模型，通过 EXCEL 进行数据分析，得到

葡萄酒理化指标与葡萄酒质量的多元线性回归方程，从而获得葡萄酒的理化指标对葡萄

酒质量的影响。同时，通过对多元回归过程的分析，我们可以判断在整体上葡萄和葡萄

酒的理化指标能够评价葡萄酒的质量，但是对于葡萄酒的个别评分项目（例如：澄清度）

不能准确的体现葡萄酒的质量。

在文章的最后我们给出了论文中模型的检验及优缺点分析。

关键词：SPSS 软件单因素方差分析因子分析法逐步多元线性回归

一、问题重述

葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到的一种含酒精饮料，其酒度低,

营养丰富，是我国酒类的发展方向。近年来,随着人民生活水平的提高,葡萄酒得到了人

们的一定青睐，但是市场上销售的葡萄酒的质量参差不齐，许多商家通过高价销售低质

量的葡萄酒来获取利益。在我国，确定葡萄酒质量时一般是通过聘请一批有资质的评酒

员进行品评，每个评酒员在对葡萄酒进行品尝后对其分类指标打分，通过总分来确定葡

萄酒的质量。同时，葡萄酒的好坏与酿酒葡萄有必然的联系，葡萄酒和酿酒葡萄检测的

理化指标会在一定程度上反映葡萄酒和葡萄的质量。因此，对葡萄酒合理的评价标准成

为人们关注的焦点。我们要建立数学模型，解决以下问题：

问题一：附件1中给出了两组评酒员对白葡萄酒、红葡萄酒的品尝评分，分析评酒

员的评分结果有无显著性差异，哪一组评分结果更可信。

问题二：根据附件2中酿酒葡萄的理化指标和葡萄酒的质量与葡萄建立相关关系，

对这些酿酒葡萄进行等级划分。

问题三：分析酿酒葡萄与葡萄酒的理化指标之间的联系，得到相应的函数关系。

问题四：分析附件中酿酒葡萄和葡萄酒的理化指标，讨论其对葡萄酒质量的影响，

并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

二、问题分析

针对本文要解决的四个问题，我们先对三个附件所给的数据进行处理分析，我们用

Excel将附件1中评酒员的评分按照不同类型的酒、不同的样品、不同组别重新排列。对

于附件2 中酿酒葡萄和葡萄酒的理化指标进行聚类分析，避免因素的相关性对问题求解

的干扰。将附件3中的芬香物质求和作为问题4的依据。

对于问题一，我们要分析评酒员的评分结果有无显著性差异并且得到哪一组评分结

果更可信，由于附件 1 中提供了两组评酒员的评分结果，我们只需针对分数这一个因素

进行分析，因为单因素方差分析是针对一个因素分析总体的各个因素水平是否有差异的

方法，因此我们采用此方法对其进行求解，讨论评分结果是否有差异。

对于问题二，我们要将酿酒葡萄的理化指标和葡萄酒的质量与葡萄建立相关关系。

因子分析法是从研究变量内部相关的依赖关系出发，把一些具有错综复杂关系的变量归

结为少数几个综合因子的一种多变量统计分析方法。对于所研究的问题就是试图用最少

个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

针对附件 2 的数据我们采用因子分析法通过对各个理化指标以及评酒员的评分分析对

葡萄进行等级划分。

对于问题三，我们需要确立葡萄酒的理化指标与葡萄理化指标之间的函数关系，首

先，我们将白葡萄酒、红葡萄酒分开讨论，红葡萄酒共有 11 个理化指标，红葡萄有 26

个理化指标(表 6.8)。我们采用多元线性回归模型分析酿酒葡萄与葡萄酒的理化指标之

间的联系，通过 SPSS 统计分析软件确定函数关系。

对于问题四，我们要分析酿酒葡萄和葡萄酒的理化指标，讨论其对葡萄酒质量的影

响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。我们结合评酒员评价

葡萄酒时采用的标准（包括外观分析、香气分析、口感分析以及平衡-整体评价）对葡

萄酒的各种理化性质进行多元线性回归分析，从而得到理化指标对葡萄酒质量的影响。

五、模型建立

5.1 问题一模型的建立

问题一需要我们对评酒员的评分进行数据分析，我们先利用Excel对数据进行处理，

针对评分这个因素，我们采用单因素分析的方法分别得到两组数据的趋势测度，比较主

要因素逐一求解。

5.1.1 单因素方差分析

单因素方差分析也称作一维方差分析。它检验由单一因素影响的一个(或几个相互

独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义，还可以对该因

素的若干水平分组中哪一组与其他各组均值间具有显著性差异进行分析，即进行均值的

多重比较。One-Way ANOVA过程要求因变量属于正态分布总体，如果因变量的分布明显的

是非正态，不能使用该过程，而应该使用非参数分析过程。如果几个因变量之间彼此不

独立，应该用Repeated Measure过程。

5.1.2 原假设与对立假设的建立

通过单因素方差分析建立原假设与对立假设，原假设是同种酒同种样品分数的均值

相等，而对立假设则是同种酒同种样品分数均值不全相等。即：

如果原假设H

被接受，则说明两组评酒员无显著性差异，如果原假设H

被拒绝，则

说明两组评酒员有显著性差异。

5.1.3 选择显著性水平

显著性水平不同，拒绝域就不同，结论也就不同，实际中通常选择0.05的显著性水

平。

5.1.4 确定决策点

F统计量的临界值由显著性水平和自由度决定，自由度为

( )

1, 1k n- -

，通过查

分

布表可以查到各显著性水平下的临界值。

5.1.5 计算决策

1）总离差平方和

( )X

SST X

= -

(1)

2）因素水平间离差平方和

( )

SSA

n n

= -

(2)

3）因素水平内离差平方和

SSE SST SSA= -

(3)

计算出三个值即可得到F，利用单因素方差分析，用Excel算出方差分析相关数据，通过

P Value-

的数值可知有无显著性差异。

5.2 问题二模型的建立

)2,1,(:

)2,1,(uu:

kjij0

�

��

kiuuH

kiH

kjij

不完全相等和

问题二需要将酿酒葡萄的理化指标、葡萄的质量与葡萄建立相应的联系，我们将复

杂的变量归结为少数几个综合因子，运用因子分析法，利用SPSS统计分析软件直接得到

葡萄的级别。

5.2.1 因子分析

因子分析法是从研究变量内部相关的依赖关系出发，把一些具有错综复杂关系的变

量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进

行分类，将相关性较高，即联系比较紧密的分在同一类中，而不同类变量之间的相关性

则较低，那么每一类变量实际上就代表了一个基本结构，即公共因子。对于所研究的问

题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原

来观测的每一分量。

5.2.2 建立变量

将葡萄酒的样本数量记为 n，酿酒葡萄的理化指标记为 p，构成一个 n×p 阶的数据

矩阵 :

11 12 1

21 22 2

1 2

n n np

x x x

é ù

ê ú

ë û

L L L L

当 p 较大时，在 p 维空间中考察问题比较麻烦，这就需要进行降维处理即用较少几

个综合指标代替原来指标，而且使这些综合指标既能尽量多地反映原来指标所反映的信

息，同时它们之间又是彼此独立的。

1 2

, , ,

x x xL

为原始变量指标，

( )

1 2

, , ,

z z z m p£L

为

新变量指标（主成分）,

是原变量在各主成分上的载荷。

则其线性组合为:

1 11 1 12 2 1

2 21 1 22 2 2

1 1 2 2

p p

m m m mp p

z l x l x l x

= + + +

(4)

由因子分析法可知因子解仅仅是无数因子解中之一，

i j

z z

相互无关，

是

1 2

, , ,

x x xL

的一切线性组合中方差最大者，

是与

不相关的

1 2

, , ,

x x xL

的所有线性

组合中方差最大者。则新变量指标

1 2

, , ,

z z zL

分别称为原变量指标的第 1，第 2，…第 m

主因子。

附件中提供了很多关于酿酒葡萄的理化指标，因此我们初步根据各指标之间的联系

的相关性进行了人为的指标的合并，同时我们将葡萄酒质量指标纳入进来（注：该处葡

萄酒的质量是由附件一中的评酒员打分状况得到），将所有指标放在一起进行因子分析。

5.2.3 运用 SPSS 统计软件进行等级划分

因子分析法的主要步骤如下：

Step1:对数据样本进行处理;

Step2:计算样本的相关矩阵 R;

Step3:求相关矩阵 R 的特征根和特征向量；

Step4:根据系统要求的累积贡献率确定主因子的个数；

Step5:计算因子载荷矩阵 A；

剩余32页未读，继续阅读

评论收藏

内容反馈

版权申诉

小码蚁.

粉丝: 2534
资源: 4146

基于机器学习的葡萄酒评价以及分析内含数据集和源码.doc

基于机器学习的葡萄酒评价以及分析内含数据集和源码.zip

基于机器学习的糖尿病检测系统内含数据集和论文.zip

基于机器学习的慢性肾脏病诊断内含数据集和运行说明.zip

基于机器学习的古代瓷器的成分分析和鉴别内含数据集以及源码.zip

基于深度学习的古代瓷器的成分分析和鉴别内含数据集以及源码.zip

基于机器学习算法的房子价格预测-内含源码和数据集.zip

基于机器学习的疫情密切接触人员追踪分析内含数据集和教程.zip

基于机器学习的帕金森病诊断内含源码和运行说明.zip

基于机器学习的天气预测web项目内含数据集.zip

机器学习：基于UCI葡萄酒数据集进行葡萄酒分类及产地预测，采用PCA+Kmeans、PCA+LVQ、BP神经网络等算法实现

8种寻找机器学习数据集的方法附数据集资源.doc

基于机器学习的公积金贷款逾期预测算法内含数据集和教程.zip

基于深度学习的医学3D图像分析和病因标注内含数据集和教程.zip

基于语音分析诊断帕金森病的机器学习方法内含数据集和运行说明.zip

基于机器学习二手房数据分析预测源码.zip

基于机器学习的自闭症检测算法内含数据集.zip

“观云识天”-机器学习算法天气识别内含数据集以及教程.zip

基于深度学习的遥感影像分类算法实现内含数据集和教程.zip

基于Python机器学习的葡萄酒质量检测项目（源码+数据+说明文档）.rar

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

李飞飞自传 我看见的世界 The World I see

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

农村公交与异构无人机协同配送优化

4个亲测好用的ChatGPT4渠道

学术海报模板+论文科研+研究生

最新资源

李飞飞自传我看见的世界 The World I see