数据分析报告
课程名称:程序设计基础(R)
开课学期: 至 学年 学期
开课班级: .
题目:白酒质量预测分析 .
学号: 姓名: .
完成时间: 年 月 日
目录
一、 背景与目标......................................................................................................3
二、 数据说明..........................................................................................................4
(一) 数据来源 ...............................................................................................4
(二) 变量说明 ...............................................................................................4
1. 对变量进行说明 ...................................................................................4
2. 显示部分数据 .......................................................................................5
三、 数据探索..........................................................................................................5
(一) 读取数据 ...............................................................................................5
(二) 查看数据整体信息 ...............................................................................5
(三) 缺失值探索 ...........................................................................................6
(四) 重复值探索 ...........................................................................................6
(五) 异常值探索 ...........................................................................................7
四、描述性分析............................................................................................................8
(一)因变量数据分析........................................................................................8
1、白酒质量概况..........................................................................................8
2、白酒质量分布情况..................................................................................9
(二)自变量数据分析......................................................................................10
1、非挥发性酸概况....................................................................................10
2、挥发性酸概况........................................................................................11
3、柠檬酸概况............................................................................................12
4、残糖概况................................................................................................13
5、氯化物概况............................................................................................14
6、游离二氧化硫概况................................................................................15
7、总二氧化硫概况....................................................................................16
8、密度概况................................................................................................17
9、酸碱度概况............................................................................................18
10、硫酸盐概况..........................................................................................19
11、酒精概况..............................................................................................20
五、相关性分析..........................................................................................................21
六、数据集构造..........................................................................................................22
(一)重要变量选择..........................................................................................22
(二)训练集和测试集构造..............................................................................24
七、分类模型..............................................................................................................24
(一) 决策树 .................................................................................................24
1.建立模型..................................................................................................24
2.模型验证..................................................................................................25
3.数据预测..................................................................................................26
(二) 随机森林 .............................................................................................26
1. 建立模型 .............................................................................................26
2. 模型验证 .............................................................................................27
3. 数据预测 .............................................................................................28
八、总结与建议..........................................................................................................28
白酒风险价格预测分析
一、 背景与目标
背景:白酒是中国拥有悠久历史的产品,拥有巨大的市场空间。在 2022 年,
白酒行业生产量有所下降,但企业数量却有所增加,白酒价格明显上涨。预计
在消费升级的影响下,白酒的高端化和年轻化趋势将明显,白酒市场的集中度
有望得到进一步提升。随着我国人均 GDP 的稳定增长,国民收入的不断提高,
白酒消费者的消费意愿也逐渐向高品质消费转变。消费升级也促使中高端白酒
产品的消费比重得到提升。现在,头部酒企都在布局高端白酒,高端白酒的投
资也持续加大,行业供给也不断增加。因此,我们通过数据分析,试图预测白
酒的质量。
分析的目标:
分析的目标是通过白酒的特征属性指标预测白酒的质量。这一目标将通过
以下八个步骤来实现:
1. 导入原始数据并对数据集中的变量进行分析,以充分了解每个变量。
2. 处理缺失值,个别删除缺失值较少的变量,并对缺失值较多的变量进行多
重插补,得到缺失值处理完毕的数据集。
3. 去除重复值,得到新数据集。
4. 进行异常值检测,保留删除异常点的数据集。
5. 将数据分别构造成测试集和训练集。
6. 对训练集进行重要变量选择,试图找出影响白酒价格的因素,包括白酒属
性和风险指标。
7. 将各变量转化为数值型变量,并对数值型数据进行相关性分析。
8. 建立分类模型,对训练集进行模型验证。
完成以上步骤后,能够较为准确地预测白酒的质量,并为完善资料提供解
决方案。
二、 数据说明
(一) 数据来源
数据内容源自 UCI 机器学习库的 Wine Quality Data Set
下载链接: https://archive.ics.uci.edu/ml/datasets/wine+quality
(二) 变量说明
1. 对变量进行说明
表 1-2 数据变量说明表
No
属性
数据类型
字段描述
1
fixed acidity
Numeric
非挥发性酸
2
volatile acidity
Numeric
挥发性酸
3
citric acid
Numeric
柠檬酸
4
residual sugar
Numeric
残糖
5
chlorides
Numeric
氯化物
6
free sulfur dioxide
Numeric
游离二氧化硫
7
total sulfur dioxide
Numeric
总二氧化硫
8
density
Numeric
密度
9
pH
Numeric
酸碱度
10
sulphates
Numeric
硫酸盐
11
alcohol
Numeric
酒精
12
quality (score between 0 an
d 10)
Numeric
葡萄酒质量(1-10 之
间)
2. 显示部分数据
图 2-1 部分数据示意
三、 数据探索
(一) 读取数据
将数据集 winequality-white.csv 导入,并赋值给 df1,命令如下:
设置读取的路径
数据一共有 4898 行,12 个列