没有合适的资源?快使用搜索试试~ 我知道了~
基于机器学习的葡萄酒评价以及分析内含数据集和源码.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 135 浏览量
2024-05-02
18:08:11
上传
评论
收藏 1.07MB DOC 举报
温馨提示
试读
33页
本文档是课题研究的研究报告内含调研以及源码设计以及结果分析
资源推荐
资源详情
资源评论
1
葡萄酒的评价
摘要
近年以来,经济迅速发展,人均 GDP 不断提高,人民对葡萄酒质量的要求越来越高。
本文就 A 题所给的的资质评酒员对葡萄酒的打分以及葡萄酒、葡萄所含的理化指标进行
分析、讨论,建立数学学模型,得到葡萄酒的评价标准。
首先,对于问题一,对附件一中两组评酒员对白、红葡萄酒 55 个样品的评分结果
进行统计分析得到各个样品的分数均值,建立原假设 H
0
与对立假设 H
1
,在检验水平为
0.05 的情况下进行 F 检验,用 Excel 进行单因素方差分析,从而得到 P-Value 的值,由
其正负可判断两组评分无显著性差异。用 Excel 处理数据得到各个样品数据分布的离散
趋势测度,比较数据的方差与极差的大小,可得到第二组评分结果更可信。
其次,对于问题二,对附件二中葡萄的理化指标进行简单的相关性分析,为了满足
SPSS 解决问题的最大容量以及问题的简化将同类的指标进行聚类,得到简化的酿酒葡萄
理化指标。在建立酿酒葡萄、葡萄酒质量与葡萄的关系时把葡萄酒的质量也作为一个重
要因子进行因子分析,运用 SPSS16.0 统计分析软件计算出相关系数阵的特征值、贡献
率、累计贡献率、因子载荷矩阵等,最终求得综合评价值并据此进行排序得到葡萄的划
分等级。
然后,针对问题三,采用多元线性回归模型,为了避免出现多重共线性问题需要对
因子进行相关性分析,将显著相关的因子归为一类。我们将葡萄的理化指标看做自变量,
葡萄酒的理化指标看做因变量,通过 SPSS 统计分析软件求得符合 F 和 t 标准的理化指
标,构成因变量的相应影响因子。根据回归系数估计及其检验表可以得出多元线性回归
方程,以此来反映葡萄及葡萄酒理化指标之间的联系。
最后,本文针对问题四也采用多元线性回归模型,通过 EXCEL 进行数据分析,得到
葡萄酒理化指标与葡萄酒质量的多元线性回归方程,从而获得葡萄酒的理化指标对葡萄
酒质量的影响。同时,通过对多元回归过程的分析,我们可以判断在整体上葡萄和葡萄
酒的理化指标能够评价葡萄酒的质量,但是对于葡萄酒的个别评分项目(例如:澄清度)
不能准确的体现葡萄酒的质量。
在文章的最后我们给出了论文中模型的检验及优缺点分析。
关键词:SPSS 软件 单因素方差分析 因子分析法 逐步多元线性回归
2
一、问题重述
葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到的一种含酒精饮料,其酒度低,
营养丰富,是我国酒类的发展方向。近年来,随着人民生活水平的提高,葡萄酒得到了人
们的一定青睐,但是市场上销售的葡萄酒的质量参差不齐,许多商家通过高价销售低质
量的葡萄酒来获取利益。在我国,确定葡萄酒质量时一般是通过聘请一批有资质的评酒
员进行品评,每个评酒员在对葡萄酒进行品尝后对其分类指标打分,通过总分来确定葡
萄酒的质量。同时,葡萄酒的好坏与酿酒葡萄有必然的联系,葡萄酒和酿酒葡萄检测的
理化指标会在一定程度上反映葡萄酒和葡萄的质量。因此,对葡萄酒合理的评价标准成
为人们关注的焦点。我们要建立数学模型,解决以下问题:
问题一:附件1中给出了两组评酒员对白葡萄酒、红葡萄酒的品尝评分,分析评酒
员的评分结果有无显著性差异,哪一组评分结果更可信。
问题二:根据附件2中酿酒葡萄的理化指标和葡萄酒的质量与葡萄建立相关关系,
对这些酿酒葡萄进行等级划分。
问题三:分析酿酒葡萄与葡萄酒的理化指标之间的联系,得到相应的函数关系。
问题四:分析附件中酿酒葡萄和葡萄酒的理化指标,讨论其对葡萄酒质量的影响,
并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
二、问题分析
针对本文要解决的四个问题,我们先对三个附件所给的数据进行处理分析,我们用
Excel将附件1中评酒员的评分按照不同类型的酒、不同的样品、不同组别重新排列。对
于附件2 中酿酒葡萄和葡萄酒的理化指标进行聚类分析,避免因素的相关性对问题求解
的干扰。将附件3中的芬香物质求和作为问题4的依据。
对于问题一,我们要分析评酒员的评分结果有无显著性差异并且得到哪一组评分结
果更可信,由于附件 1 中提供了两组评酒员的评分结果,我们只需针对分数这一个因素
进行分析,因为单因素方差分析是针对一个因素分析总体的各个因素水平是否有差异的
方法,因此我们采用此方法对其进行求解,讨论评分结果是否有差异。
对于问题二,我们要将酿酒葡萄的理化指标和葡萄酒的质量与葡萄建立相关关系。
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归
结为少数几个综合因子的一种多变量统计分析方法。对于所研究的问题就是试图用最少
个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
针对附件 2 的数据我们采用因子分析法通过对各个理化指标以及评酒员的评分分析对
葡萄进行等级划分。
对于问题三,我们需要确立葡萄酒的理化指标与葡萄理化指标之间的函数关系,首
先,我们将白葡萄酒、红葡萄酒分开讨论,红葡萄酒共有 11 个理化指标,红葡萄有 26
个理化指标(表 6.8)。我们采用多元线性回归模型分析酿酒葡萄与葡萄酒的理化指标之
间的联系,通过 SPSS 统计分析软件确定函数关系。
对于问题四,我们要分析酿酒葡萄和葡萄酒的理化指标,讨论其对葡萄酒质量的影
响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。我们结合评酒员评价
葡萄酒时采用的标准(包括外观分析、香气分析、口感分析以及平衡-整体评价)对葡
萄酒的各种理化性质进行多元线性回归分析,从而得到理化指标对葡萄酒质量的影响。
3
三、模型假设
1、附件1中的资质评酒员对葡萄酒的打分相互独立,互不干扰。
2、附件中所给的酿酒葡萄和葡萄酒的各种理化指标数据具有真实客观性,可直接应用。
3、附件中所给的评酒员的打分分数是真实有效的,没有出现数据统计失误。
4、葡萄酒的质量是由评酒员打分状况得到。
四、符号说明
符号
符号说明
H
0
原假设
H
1
对立假设
u
ij
(i=1,2;j=1,2…28)
白葡萄酒第i组第j样品的分数均值
U
ik
(i=1,2;k=1,2…27)
红葡萄酒第i组第j样品的分数均值
F
α
(k-1,n-k)
F检验(k:组数)
X
样本的观察值
n
样本数量
T
c
每个因素水平观察值之和
n
c
每个因素水平包含观察之个数
F
crit
F的临界值
P-Value
同显著性水平比较值
X
1,
X
2
…X
p
原始变量指标
Z
1
,Z
2
…Z
m
(m≦p)
新变量指标
L
ij
原变量在各主成分上的载荷
SSA
因素水平间离差平方和
SST
总离差平方和
SSE
因素水平内离差平方和
SS
离差平方和
df
自由度
MS
均方
F
F检验中F的值
HS
花色苷()
DN
单宁(mmol/L)
ZF
总酚(mmol/L)
JZ
酒总黄酮(mmol/L)
FX
芳香物质
BL
白藜芦醇(mg/L)
DPPH
DPPH半抑制体积1/IV50(uL)
LL
L*(D65)
aa
a*(D65)
bb
b*(D65)
HH
H(D65)
CC
C(D65)
,
r w
Qpt Qpt
红,白葡萄酒质量
4
五、模型建立
5.1 问题一模型的建立
问题一需要我们对评酒员的评分进行数据分析,我们先利用Excel对数据进行处理,
针对评分这个因素,我们采用单因素分析的方法分别得到两组数据的趋势测度,比较主
要因素逐一求解。
5.1.1 单因素方差分析
单因素方差分析也称作一维方差分析。它检验由单一因素影响的一个(或几个相互
独立的)因变量由因素各水平分组的均值之间的差异是否具有统计意义,还可以对该因
素的若干水平分组中哪一组与其他各组均值间具有显著性差异进行分析,即进行均值的
多重比较。One-Way ANOVA过程要求因变量属于正态分布总体,如果因变量的分布明显的
是非正态,不能使用该过程,而应该使用非参数分析过程。如果几个因变量之间彼此不
独立,应该用Repeated Measure过程。
5.1.2 原假设与对立假设的建立
通过单因素方差分析建立原假设与对立假设,原假设是同种酒同种样品分数的均值
相等,而对立假设则是同种酒同种样品分数均值不全相等。即:
如果原假设H
0
被接受,则说明两组评酒员无显著性差异,如果原假设H
0
被拒绝,则
说明两组评酒员有显著性差异。
5.1.3 选择显著性水平
显著性水平不同,拒绝域就不同,结论也就不同,实际中通常选择0.05的显著性水
平。
5.1.4 确定决策点
F统计量的临界值由显著性水平和自由度决定,自由度为
( )
1, 1k n- -
,通过查
F
分
布表可以查到各显著性水平下的临界值。
5.1.5 计算决策
1)总离差平方和
2
2
( )X
SST X
n
= -
å
å
(1)
2)因素水平间离差平方和
2
2
( )
( )
c
c
X
T
SSA
n n
= -
å
å
(2)
3)因素水平内离差平方和
SSE SST SSA= -
(3)
计算出三个值即可得到F,利用单因素方差分析,用Excel算出方差分析相关数据,通过
P Value-
的数值可知有无显著性差异。
5.2 问题二模型的建立
)2,1,(:
)2,1,(uu:
1
kjij0
�
��
kiuuH
kiH
kjij
不完全相等和
5
问题二需要将酿酒葡萄的理化指标、葡萄的质量与葡萄建立相应的联系,我们将复
杂的变量归结为少数几个综合因子,运用因子分析法,利用SPSS统计分析软件直接得到
葡萄的级别。
5.2.1 因子分析
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变
量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进
行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性
则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问
题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原
来观测的每一分量。
5.2.2 建立变量
将葡萄酒的样本数量记为 n,酿酒葡萄的理化指标记为 p,构成一个 n×p 阶的数据
矩阵 :
11 12 1
21 22 2
1 2
p
p
n n np
x x x
x x x
X
x x x
é ù
ê ú
ê ú
=
ê ú
ê ú
ê ú
ë û
L
L
L L L L
L
当 p 较大时,在 p 维空间中考察问题比较麻烦,这就需要进行降维处理即用较少几
个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信
息,同时它们之间又是彼此独立的。
1 2
, , ,
p
x x xL
为原始变量指标,
( )
1 2
, , ,
m
z z z m p£L
为
新变量指标(主成分),
ij
L
是原变量在各主成分上的载荷。
则其线性组合为:
1 11 1 12 2 1
2 21 1 22 2 2
1 1 2 2
p p
p p
m m m mp p
z l x l x l x
z l x l x l x
z l x l x l x
= + + +
ì
ï
= + + +
ï
í
ï
ï
= + + +
î
L
L
M
L
(4)
由 因 子 分 析 法 可 知 因 子 解 仅 仅 是 无 数 因 子 解 中 之 一 ,
,
i j
z z
相 互 无 关 ,
1
z
是
1 2
, , ,
p
x x xL
的一切线性组合中方差最大者,
2
z
是与
1
z
不相关的
1 2
, , ,
p
x x xL
的所有线性
组合中方差最大者。则新变量指标
1 2
, , ,
m
z z zL
分别称为原变量指标的第 1,第 2,…第 m
主因子。
附件中提供了很多关于酿酒葡萄的理化指标,因此我们初步根据各指标之间的联系
的相关性进行了人为的指标的合并,同时我们将葡萄酒质量指标纳入进来(注:该处葡
萄酒的质量是由附件一中的评酒员打分状况得到),将所有指标放在一起进行因子分析。
5.2.3 运用 SPSS 统计软件进行等级划分
因子分析法的主要步骤如下:
Step1:对数据样本进行处理;
Step2:计算样本的相关矩阵 R;
Step3:求相关矩阵 R 的特征根和特征向量;
Step4:根据系统要求的累积贡献率确定主因子的个数;
Step5:计算因子载荷矩阵 A;
剩余32页未读,继续阅读
资源评论
小码蚁.
- 粉丝: 2534
- 资源: 4146
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于JavaScript和CSS的随寻订购网页设计源码 - web-order
- 基于MATLAB的声纹识别系统设计源码 - VoiceprintRecognition
- 基于Java的微服务插件集合设计源码 - wsy-plugins
- 基于Vue和微信小程序的监理日志系统设计源码 - supervisionLog
- 基于Java和LCN分布式事务框架的设计源码 - tx-lcn
- 基于Java和JavaScript的茶叶评级管理系统设计源码 - tea
- IMG_5680.JPG
- IMG_0437.jpg
- 基于Java的JAVA项目分析工具设计源码 - JAVAProjectAnalysis
- top888.json
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功