没有合适的资源?快使用搜索试试~ 我知道了~
lianjiaspider:链家网在售二手房 小区和成交记录的抓取 20180616
共17个文件
py:5个
xml:4个
sql:2个
需积分: 50 3 下载量 174 浏览量
2021-05-10
23:44:19
上传
评论
收藏 851KB ZIP 举报
温馨提示
挺用心的链家爬虫(速度更快 数据更全 评分更有意义) 网上抓取链家数据的爬虫很多 但有几个问题: 1、 在售二手房爬取的数据不全(实际在售二手房房源大概4万套),但由于每页展示30条, 但总共展示100页,也就是说爬取的仅仅是3000条在售二手房数据; 2、 没有各个小区的物业信息,物业费用能React一个小区的中高低档; 3、 没有已成交记录的信息,并且近期链家对成交价格隐藏; 4、 抓取后没有数据处理; 这个网页抓取的脚本完美解决了以上问题; 同时,技术上使用了多进程+多协程的方法,提高抓取效率; 最后对每一个在售二手房进行评分: 根据是否有窗户、窗户是否是落地、窗户朝向、得房率(套内面价/建筑面积)、得房单价和装修维度搭建评分模型,给出一个百分制的分数; 几个使用上的简要说明: 1、xmind_logic.png 是这个抓取脚本设计的思维导图,主要介绍了该方法的设计思路以
资源推荐
资源详情
资源评论
收起资源包目录
lianjiaspider-master.zip (17个子文件)
lianjiaspider-master
screen.png 489KB
.gitignore 12B
CreateTableSql.sql 7KB
README.md 2KB
xmind_logic.png 332KB
LianJia
__init__.py 0B
LianJiaSpider_XiaoQu.py 15KB
LianJiaSpider_ErShouFang.py 24KB
score.py 6KB
LianJiaSpider_ChengJiao.py 18KB
ershoufangdata.xlsx 40KB
SelectSql.sql 3KB
.idea
workspace.xml 34KB
vcs.xml 180B
misc.xml 254B
modules.xml 278B
LianJiaSpider.iml 500B
共 17 条
- 1
资源评论
向着程序媛生长的
- 粉丝: 23
- 资源: 4593
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功