成都二手房价数据分析
摘要:
住房是民生之本,房价成了生活中大家所关注的问题,不少购房者将视线转移
到二手的普通住房,但更多的人更多的缺少信息筛选的方法。本文研究通过机器
学习工具 Python。采用 scratch 爬虫对链家网的成都市各区二手房源数据进
行获取,收集范围包括小区名称、类型、地址、售价等相关信息。经过数据清
洗,使用 随机森林、决策树、K-Means 算法,对所获取的 2 万余条数据(链家
网成都各区前 100 页) 进行预测分析,将其属性相似度较高进行划分。
关键词:爬虫、机器学习、可视化分析、二手房价预测
目录
一、数据分析目标与任务 ...................................................................................................1
二、数据预处理 ...................................................................................................................1
三、数据探索分析 ...............................................................................................................2
四、数据分析模型 .............................................................................................................11
五、方案评估 .....................................................................................................................14
附录 .....................................................................................................................................14
《数据分析原理》课程设计报告
一、数据分析目标与任务
1. 背景介绍
随着国家对新建商品房市场调控力度的加大和存量房市场的逐步扩大,二手房市场将
逐步发育成熟,成为与一手房市场相竞争和共存的市场形态。在二手房交易市场在不断
发展的进程中,始终存在着房地产经纪机构规模小、经营行为不规范、人员素质偏低、
行业诚信经营状况令人堪忧。然而,二手房交易市场是伴随着我国住房制度改革诞生的
新兴市场,存在问题是不可避免的,但我国二手房交易市场的发展前景十分广阔,目前
政府相关部门正在采取各项措施,培育和完善二手房交易市场。
2. 研究方法与技术路线
通过爬虫收集成都主城区范围内二手房数据信息,数据可视化探索影响房价的重要
因素,对数据建模,通过购房需求,预测房价。
二、数据预处理
3. 数据说明
本次爬取到的成都二手房数据共三万余条,获取的信息包括:总价格,每平方单
价,小区名,小区位置,房屋地址,房屋户型,所在楼层,建筑面积,户型结构,套内
面积,建筑类型,房屋朝向,建筑结构,装修情况,梯户比例,是否配备电梯,挂牌时
间,交易权属,上次交易,房屋用途,房屋年限,产权所属,抵押信息。其中房价的单
位为万,面积单位为平方米。
4. 数据清洗
由于原始数据中含有特殊符号或者数字后跟有单位,在清洗时我们需要去除其属性
中的特殊符号,以及将部分空值和明显有误差值剔除,获取到干净的数据,从而形成
CSV 文件。
《数据分析原理》课程设计报告
5. 数据处理
在对二手房进行分析的过程中还需要对所爬取的数据进行进一步的预处理。部分代
码如下图:
《数据分析原理》课程设计报告
三、数据探索分析
1. 结合可视化呈现,对数据进行探索性分析
(1) 绘制柱状图,对成都市各个区域内的二手房的分布情况做了分析,分析各主城区内各小区
(街道)中二手房的单价信息。
(2) 绘制饼状图,对成都市各个城区内的各个小区(街道)的二手房数量占比进行统计,分析同
一城区中二手房数量最多的小区(街道)。
(3) 绘制箱线图,用于对比各城区二手房房价价格高低,同时能根据箱线图,看出例如平均房
价,房价方差,以及各个区域房价的离散程度。