没有合适的资源?快使用搜索试试~ 我知道了~
链家二手房、租房、居民区数据爬取及分析准备工作:1、安装anaconda,并安装以下库:requests、numpy、pandas、time、random、lx
资源推荐
资源详情
资源评论
链家二手房、租房、居民区数据爬取及分析
准备工作:
1、安装 anaconda,并安装以下库:requests、numpy、pandas、time、random、lxml、os、datetime、json、pymongo、re、csv
参考教程:https://www.jianshu.com/p/eaee1fadc1e9
2、安装数据库 mongodb
参考教程:http://www.runoob.com/mongodb/mongodb-window-install.html
3、安装 MongoDB 可视化工具 Studio 3T
参考教程:https://blog.csdn.net/potato512/article/details/77844919
4、申请高德 api 的 key(WEB 服务,最多可申请 10 个)
参考教程:https://blog.csdn.net/qq_32444825/article/details/79441900
流程图:
1、链家二手房数据爬取及分析
数据爬取 数据解析及整理 数据分析
def get_district_link
按城市爬取小区域的链接,
保存在csv文件(链家二手
房小区域列表city.csv)中
get_html_district_sechand
.py
按小区域(district)爬取二
手房数据,保存在数据库
html_district_sechand中
get_data_district_sechand.py
get_data_district_sechand_bj.py
从数据库中读入指定[city,date]的数
据,解析html,并保存在数据库
data_district_sechand中
纵向比较(同一城市两个时间)compare_sechand_diff_dates.py:
� 总况分析:
1个txt文件保存分析结果:city不同日期(date1-date2)分析对比结果.txt
两个日期的房源数增减、共有房源数、单价变化;
上调/下调价格房源数、平均金额、平均幅度;
上调/下调幅度最大的房源ID、原价格、现价格、调整幅度;
总价500万以下,上调/下调幅度最大的房源ID、原价格、现价格、调整幅度
� 房源分析:
1个csv文件保存分析结果:city不同日期(date1-date2)分析对比.csv
单数据表分析analyze_sechand.py:
� 总况分析:
1个txt文件保存分析结果:city_date_二手房分析结果.txt
5个jpg图:city_date_总价分布.jpg、city_date_单价分布.jpg、city_date_面
积分布.jpg、city_date_户型分布.jpg、city_date_不同面积的平均单价.jpg
� 房源分析:
1个csv文件保存分析结果:city_date_单价低于均值x%的二手房.csv
按小区分组,找出每个小区中单价偏离较大的低价房源
横向比较(不同城市)compare_sechand_diff_cities.py:
1个csv文件保存分析结果:多城市分析结果对比date.csv
不同城市的房源数及总价、单价、面积的中位数、平均值、最小值、最大值
2、链家租房数据爬取及分析
数据爬取 数据解析及整理 数据分析
def get_district_link
按城市爬取小区域的链接,
保存在csv文件(链家租房
小区域列表city.csv)中
get_html_district_rent.py
按小区域(district)爬取租
房数据,保存在数据库
html_district_rent中
get_data_district_rent.py
从数据库中读入指定[city,date]的数
据,解析html,并保存在数据库
data_district_rent中
单数据表分析analyze_rent.py:
� 1个excel文件(3个sheet)保存分析结果:city_date_链家租房分析结
果.xlsx
2个sheet:小区域的房租均价、居民区的房租均价
1个sheet:单价低于小区平均单价x%
按小区分组,找出每个小区中单价偏离较大的低价房源
� 5个jpg图:city_date_不同户型房源数.jpg、city_date_不同户型平均每平
米月租.jpg、city_date_不同户型平均面积.jpg、city_date_不同面积房源
数.jpg、city_date_不同面积的平均每平米月租.jpg
纵向比较(同一城市两个时间)compare__diff_dates.py:
� 总况分析:
1个txt文件保存分析结果:city不同日期(date1-date2)租房分析对比结果.txt
两个日期的房源数增减、共有房源数、单价变化;
上调/下调价格房源数、平均金额、平均幅度;
上调/下调幅度最大的房源ID、原价格、现价格、调整幅度;
月租1万以下,上调/下调幅度最大的房源ID、原价格、现价格、调整幅度
� 房源分析:
1个csv文件保存分析结果:city不同日期(date1-date2)租房分析对比.csv
剩余11页未读,继续阅读
资源评论
恽磊
- 粉丝: 21
- 资源: 297
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功