没有合适的资源?快使用搜索试试~ 我知道了~
波士顿房价影响因素分析及预测
5星 · 超过95%的资源 需积分: 33 6 下载量 45 浏览量
2022-05-30
15:25:26
上传
评论
收藏 1.55MB PDF 举报
温馨提示
乱写的
资源详情
资源评论
资源推荐
目录
1.引言 ............................................................................................................................................... 2
1.1 问题研究的背景 ............................................................................................................... 2
1.2 数据........................................................................................................................................... 2
1.2.1 数据来源 ........................................................................................................................ 2
1.2.2 数据基本情况 ............................................................................................................... 2
1.基本信息 ........................................................................................................................... 2
2. 描述信息 ......................................................................................................................... 3
3.划分数据集 ....................................................................................................................... 3
2.数据探索过程................................................................................................................................ 4
2.1.预处理............................................................................................................................... 4
2.2 数据探索 ........................................................................................................................... 5
2.2.1 数据可视化 .................................................................................................................... 5
1. 房价的折线图 ................................................................................................................. 5
2.房价的箱线图 ................................................................................................................... 5
3.各变量与房价的散点图 ................................................................................................... 6
4.扇形图和直方图 ............................................................................................................... 7
5.热力图 ............................................................................................................................... 8
2.2.2 统计分析 ...................................................................................................................... 10
1.查看缺失值 ..................................................................................................................... 10
2.查看维度、大小、占用内存情况 ................................................................................. 11
3.描述性数据分析 ............................................................................................................. 11
3.建立回归模型.............................................................................................................................. 12
3.1 回归预测 ......................................................................................................................... 12
3.2 数据可视化 ..................................................................................................................... 13
3.3 模型评价 ......................................................................................................................... 14
4.结论 ............................................................................................................................................. 14
参考文献......................................................................................................................................... 15
2
1.引言
1.1 问题研究的背景
随着国家二胎政策、三胎政策的出台,购房政策也相应改革。以上海为例,具有购房条
件的非沪籍家庭限购一套上海住宅,沪籍单身或者家庭也限购,此项政策旨在遏制炒房,让
更多的人住的起房。因此,在排除了人为的炒房因素下,客观了解影响房价的因素,针对自
身情况全方位分析房价就显得格外重要。
一个地区的房价影响因素有很多种,有地段、公共设施、公共服务、医疗设施、学区
房、周围绿化环境、安保设施等。所以在考虑房价的影响因素时,应该全面分析。
我们采用国外的波士顿房价的相关数据,该数据由 1978 年的 Harrison 和 Rubinfeld
教授收集整理,其中包括了犯罪率、二氧化氮浓度、师生比率等 14 个变量,506 个数据。
后来有学者对其进行更新和审核,使得该数据具有一定的权威性。因此,该数据是可行的。
数据分析的内容为将数据可视化,分析影响房价的因素,目的为预测可能出现的房价
[1]
。
1.2 数据
1.2.1 数据来源
本文采用的波士顿房价数据来源于 sklearn 系统,具体由 1978 年的𝐻𝑎𝑟𝑟𝑖𝑠𝑜𝑛和
𝑅𝑢𝑏𝑖𝑛𝑓𝑒𝑙𝑑教授收集整理。该数据收集了波士顿不同地区的 506 个不同家庭住房信息
[1],
其中
包括了房价中位数等 14 个变量,数据量为 506×14。
1.2.2 数据基本情况
1.基本信息
采用 sklearn 库的 datasets 模块集加载 bosten 数据集,加载后的数据集可以视为一个字
典,使用 data,target,feature_names,DESCR 分别获取数据集的数据,标签,特征名称和
描述信息。基于数据、数据集的长度、形状,数据的大致情况如下:
表 1 数据的大致情况
CRIM
ZN
INDUS
CHAS
NOX
RM
GE
DIS
RAD
TAX
PRTATIO
B
LSTAT
PRICE
0.00632
18
2.31
0
0.538
6.575
65.2
4.09
1
296
15.3
396.9
4.98
24
0.02731
0
7.07
0
0.469
6.421
78.9
4.9671
2
242
17.8
396.9
9.14
21.6
0.02729
0
7.07
0
0.469
7.185
61.1
4.9671
2
242
17.8
392.83
4.03
34.7
3
0.03237
0
2.18
0
0.458
6.998
45.8
6.0622
3
222
18.7
394.63
2.94
33.4
0.06905
0
2.18
0
0.458
7.147
54.2
6.0622
3
222
18.7
396.9
5.33
36.2
…
…
…
…
…
…
…
…
…
…
…
…
…
…
2. 描述信息
基于数据的描述性特征,我们选取房价为因变量,其余 13 个变量为自变量,以此来分
析影响房价高低的因素。变量说明如下表所示:
表 2 变量说明
变量
说明
CRIM
城镇的人均犯罪率
ZN
高于 25000 平方英尺的住宅区域
INDUS
城镇中非零售商业区比率
CHAS
查尔斯河哑变量(=1,若位于河边=0,其他)
NOX
二氧化氮集中度(没千万)
RM
每栋住宅的平均房间数
AGE
1940 年前的房东比率
DIS
与波士顿 5 大就业中心的有效距离
RAD
到达高速公路的便利指数
TAX
不动产税率(每万美元)
PTRATIO
城镇的学生-老师比率
B
1000(Bk-0.63)^2,Bk 是城镇黑人比率
LSTAT
低教育程度的人口比率
MEDV
住房价格中位数(单位:1000 美元)
3.划分数据集
在数据分析过程中,为了保证模型在实际系统中能够起到预期作用,一般需要用 sklearn
的 model_selection 模块提供了 train_test_split 函数将样本分成独立的两部分:训练集
(boston_data_train):用于估计模型;测试集(boston_data_test):用于检验最优的模型的
性能。因为传入的是 2 组数据:data 和 target,则生成的训练集和测试集分别 2 组,总共 4
组。其中,训练集占 80%,测试集占 20%,随机种子为 42,代码如下图所示:
剩余14页未读,继续阅读
阿崔学不会
- 粉丝: 29
- 资源: 11
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论5