# 数据仓库与数据挖掘项目报告
**梅浩楠,徐尘化**
# 一、项目目的及意义
项目的目的是在采集自贝壳二手房交易平台的成都市二手房成交数据的基础上,对数据进行处理和挖掘,以网站为载体实现二手房交易分析、卖方价格预测和买方房屋推荐三个主要功能。
二手房交易分析功能服务于统计人员,对成都的二手房交易做完整的统计分析,使用折线图、散点图、饼图等展示属性间的关系,提供交互功能,可以对成都市行政区划地图进行点选,展示不同区的具体信息并选择不同的区进行对比。
卖方价格预测功能服务于卖方,通过用户提供的二手房的各种属性预测其成交价,为二手房交易中的卖方提供一个参考值,使卖方对于自己房子的价格有一个较为准确的估计,并在地图上标记房子。
买方房屋推荐功能服务于买方,通过买方选取的各个属性可接受的范围,为买方列出可以选择的二手房范围,在地图上进行标记,使买方在购房前有一个心理预期。
# 二、技术路线
这是预计的技术路线图:
![1](img/1.png)
以下为实际技术路线以及部分关键节点:
10-15
确定选择的原始数据集为成都二手房交易信息列表,对原始数据集的字段进行了分析和初步筛选
10-17
制定了初步的技术路线图
10-18
明确了要实现的目标为:买方、卖方预测系统;可视化页面
10-19
确定了使用网页的形式来完成我们的系统并进行展示
10-25
对数据进行了初步预处理,使用正则表达式、数值化等方式得到了经过第一次预处理的数据集
10-26
使用回归决策树的方式,基于十个特征对房价进行了预测,得到了合理的平均误差和方差。
10-27
开始使用经过第一次预处理的数据集进行可视化工作
11-02
进一步确定了可视化的具体展示形式
11-03
使用爬虫获取了时间数据
11-06
使用爬虫和百度地图API获取了地址和经纬度数据
11-11
发现爬取的地址存在一定格式上的问题,重新进行了处理,并找到和删除了部分异常数据,并进行了相关性分析,得到相关性的热力图。得到第三次预处理后的数据集
11-18
实现可视化页面点击中央大地图展示周围子图的功能。实现卖方、买方预测页面的底层功能。
11-19
实现网页后端
11-21
完成网页前端
11-22
对聚类进行了分析实践,对不同分类预测算法进行了评估,选择了效果最好的预测算法。
**总结:**
通过整个项目的实践,我们亲身体会了数据挖掘的那张路线图,预处理、分析之后发现问题(Knowledge),再进行新的处理,再重新分析挖掘,做评估,然后发现新的问题,再从头开始,在这几个过程的循环往复中完成了整个项目。
# 三、研发情况
## 3.1 数据预处理
**数据集描述**
我们采用的数据集为采集自贝壳二手房交易平台的成都的二手房成交信息列表。数据集中一共有 20001 条数据,原始数据集每条数据有 14 个字段。
该原始数据集的 14 个字段中存在 2 个字段与内容无关/无效,存在 2 个字段需要深入获取信息,另外部分字段的内容需要拆解。
第一阶段我们选取的有效字段为['区','所处楼层级别','总楼层数','建造年份','面积','朝向','关注数','是否有 VR 房源','是否近地铁','单位价格','总价']
**数据提取和数值化**
原数据集数据存在多个不同数据挤在一个字段中的问题,我们使用正则表达式对需要的字段进行提取,然后对必要的文本型数据进行数值化。
**爬虫**
为了获取更多的数据,我们从原数据集的房屋链接字段爬取房屋的挂牌年月日;从小区链接字段爬取房屋所处小区的具体位置(文字描述)。然后申请百度地图的 ak,通过百度地图将文字描述的位置转化为对应的经纬度。
**相关性分析**
通过相关性分析的方式,找出字段之前的关联性。
![2](img/2.png)
**异常值寻找**
利用相关性分析,选取相关性高的两个特征(面积和总价),作出两个特征间的散点图:
![3](img/3.png)
可以看到在最右侧出现面积非常大而价格特别低的点,可以认为这是异常点删去;在最上方也出现面积较小但价格异常高的点,可以认为是异常点删去。
**数据处理结果**
最终我们处理得到了两份数据,一份用于可视化,一份用于算法。具体数据说明如下:
```c++
processedDataForVisual的数据字段为:'编号','位置','区','房型','所处楼层级别','总楼层数','建造年份','面积','朝向','关注数','是否有VR房源','是否近地铁','单位价格','挂牌年','挂牌月','挂牌日','总价','纬度','经度'
processedDataForCalculate的数据字段为:'区','所处楼层级别','总楼层数','建造年份','面积','朝向','是否近地铁','挂牌年','挂牌月','挂牌日','纬度','经度','总价'
```
数值化数据字段说明
区:
```c++
{'双流': 0, '天府新区': 1, '成华': 2, '武侯': 3, '温江': 4, '郫都': 5, '金牛': 6, '锦江': 7, '青羊': 8, '高新': 9, '高新西': 10}
```
房型:
1|1 指一室一厅,以此类推
所处楼层级别:
```c++
{'地下室':0, '低楼层':1, '中楼层':2, '高楼层':3}
```
朝向:
```c++
{'北':1, '东北':2, '东':3, '东南':4, '南':5, '西南':6, '西':7, '西北':8}
```
是否有 VR 房源/是否有地铁:
1 表示是,0 表示否
## 3.2 可视化分析
我们根据相关性以及感兴趣的部分做出大量图表,现对部分图表进行分析。
![4](img/4.png)
![5](img/5.png)
中心城区(成华区、青羊区、锦江区、武侯区)单位房价更高。在正常的认知下,中心城区的房屋单位价格都要高于相对比较偏远的地区,在较大城市更加明显。我们以行政区为类别,计算量每个行政区房屋单位价格的中位数并标以颜色深浅。从图中可以看到,较靠近中心的几个行政区颜色都较外围行政区要高,在上右图(2020 年数据)体现的尤为明显。
单位房价在随时间升高。从 2018 年到 2020 年,肉眼可见的,每个行政区的颜色在加深,即单位价格在升高。每个行政区,即每个局部的单位价格在升高,可以合理地推断出由局部组成的总体的单位价格在升高。
中心城区(成华区、青羊区、锦江区、武侯区)二手房的关注数更高,更多人关注这些地区的房屋。我们对每个区计算在该行政区内二手房的关注总数:
![6](img/6.png)
![7](img/7.png)
![8](img/8.png)
上方三张图为锦江、武侯、青羊三个中心行政区的总关注人数。
下方三个图为双流、郫都、温江三个较边缘行政区的总关注人数。
![9](img/9.png)
![10](img/10.png)
![11](img/11.png)
可以看到,中心行政区的总关注数要远远大于较边缘的区域。
我们认为这是由于中心区域在交通、地理位置、教育资源、娱乐等各方面都相对比较发达和完善所导致的。人们在选择房子时往往会考虑到周边环境。
- 中心城区的二手房的挂牌量在进入 2020 年后飙升,而边缘城区的挂牌量则在进入 2020 年后显著下降。
![12](img/12.png)
![13](img/13.png)
其中锦江和青羊均为地理位置上的中心区,郫都和双流为地理位置上的边缘区。
这一现象我们暂时无法解释,可能与政府政策有很大的关系,也可能是数据集本身的原因。但是我们依然认为这一现象有讨论的价值。
- 中心城区的房屋建造年份普遍较早。
![14](img/14.png)
�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
卖方预测功能及买方推荐功能:1、 完成了基本的买方推荐功能,用户可以自主选取各个属性可接受的范围,系统会将符合用户需求的二手房在表格中展示出来并在地图上标注。2、完成了卖方预测功能,用户可以提供需要售卖的二手房的属性,系统将会输出适合的价格并将需要售卖的房子在地图上标注。 数据可视化功能: 展示部分属性间的关系,包含了折线图、散点图、饼图等等。利用一张成都市部分行政区划的地图,通过点击地图可以展开更多的图表。同时可以将图表进行大屏和对比展示。
资源推荐
资源详情
资源评论
收起资源包目录
100012918-基于Python+SQLite实现成都市二手房交易预测及展示系统.zip (79个子文件)
forecastdisplaysystem
简介.md 413B
LICENSE 1KB
Pic
可交互展示页面.png 222KB
首页.png 839KB
卖方价格预测页面.png 327KB
买方房屋推荐页面.png 285KB
img
19.png 221KB
10.png 4KB
9.png 4KB
3.png 41KB
12.png 81KB
24.png 227KB
25.png 85KB
15.png 70KB
1.png 210KB
23.png 25KB
11.png 5KB
13.png 78KB
6.png 4KB
27.png 334KB
5.png 54KB
4.png 137KB
8.png 4KB
21.png 224KB
17.png 43KB
16.png 72KB
7.png 4KB
20.png 70KB
18.png 187KB
2.png 140KB
14.png 84KB
26.png 362KB
22.png 213KB
项目文档.docx 2.95MB
djangoProject
db.sqlite3 0B
templates
visualization.html 50KB
home.html 639B
recommend.html 7KB
forecast.html 7KB
.idea
other.xml 233B
misc.xml 185B
inspectionProfiles
profiles_settings.xml 174B
modules.xml 278B
djangoProject.iml 1KB
.gitignore 301B
manage.py 669B
templatetags
my_tags.py 426B
__pycache__
my_tags.cpython-37.pyc 779B
__pycache__
manage.cpython-37.pyc 882B
djangoProject
__init__.py 0B
wsgi.py 403B
urls.py 279B
settings.py 3KB
__pycache__
views.cpython-37.pyc 5KB
settings.cpython-37.pyc 2KB
__init__.cpython-37.pyc 214B
wsgi.cpython-37.pyc 629B
urls.cpython-37.pyc 460B
asgi.py 403B
views.py 6KB
static
pic
成都市.jpg 102KB
成都.jpg 154KB
房屋推荐.jpg 91KB
可视化展示.png 339KB
价格预测.jpg 200KB
js
shine.js 12KB
echarts.js 3.23MB
ecStat.js 91KB
cdMap.js 191KB
macarons.js 12KB
dataset.js 447KB
data
processedDataForCalculate.csv 1.4MB
processedDataForVisual.csv 2.36MB
css
home.css 4KB
common.css 1KB
bootstrap.css 143KB
form.css 4KB
data_text.css 8KB
README.md 13KB
共 79 条
- 1
资源评论
- 锦华府2024-03-12内容与描述一致,超赞的资源,值得借鉴的内容很多,支持!
神仙别闹
- 粉丝: 2707
- 资源: 7662
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- python39.dll
- 【Matlab 六自由度机器人】Fixed Angles(固定角度) 和 Euler Angles(欧拉角) 之间的区别
- BMSP430工程PPT说明书.zip
- FlinkFlinkF
- 《计算机网络-自顶向下方法》答案
- 基于pyqt5框架开发的demo项目 全栈开发,短小精悍,入门学习,上手简单
- 国内IP地址大全 站长资源 访问IP设置 Order allow,deny 使用方法
- 【JavaScript实现点击鼠标出现爱心特效脚本】直接引入index.html文件可用!!!
- OPC Core Components Redistributable (x86).msi
- 一套基于Python的交易量化框架,详细复现步骤
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功