【免费】爬取链家房屋信息-实现代码_java链家房屋基本信息抓取资源-CSDN文库

共40个文件

pyc：18个

py：14个

sql：4个

需积分: 0 156 浏览量 2022-12-07 16:22:28 上传评论收藏 3.1MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

爬取链家房屋信息项目.zip （40个子文件）

爬取链家房屋信息项目

信管二班202010520208孟令强

《爬取链家房屋信息项目实战》技术总结报告孟令强.doc 1.57MB

houseinfo.sql 928KB

villageinfo.sql 304KB

lianjia

middlewares.py 4KB

pipelines.py 7KB

spiders

hourseSprider.py 7KB

__pycache__

hourseSprider.cpython-38.pyc 5KB

__init__.cpython-38.pyc 129B

__init__.py 161B

__pycache__

settings.cpython-38.pyc 900B

settings.cpython-39.pyc 788B

__init__.cpython-38.pyc 121B

pipelines.cpython-38.pyc 5KB

__init__.cpython-39.pyc 121B

items.cpython-38.pyc 360B

items.cpython-39.pyc 360B

items.py 421B

__init__.py 0B

settings.py 4KB

conf.ini 17B

《爬取链家房屋信息项目实战》技术总结报告孟令强.doc 1.55MB

houseinfo.sql 928KB

villageinfo.sql 304KB

lianjia

middlewares.py 4KB

pipelines.py 7KB

spiders

hourseSprider.py 7KB

__pycache__

hourseSprider.cpython-38.pyc 5KB

__init__.cpython-38.pyc 129B

__init__.py 161B

__pycache__

settings.cpython-38.pyc 900B

settings.cpython-39.pyc 788B

__init__.cpython-38.pyc 121B

pipelines.cpython-38.pyc 5KB

__init__.cpython-39.pyc 121B

items.cpython-38.pyc 360B

items.cpython-39.pyc 360B

items.py 421B

__init__.py 0B

settings.py 4KB

conf.ini 17B

浪潮优派 TF 项目实战总结报告

《链家房屋信息项目实战》

技术总结报告

年级

2020 级

班级

信息管理与信息系统二班

姓名

孟令强

教师

吴瑕

成绩

山东浪潮优派教育科技有限公司

1. 软件开发流程(

可说明软件的开发流程包括几个阶段，每个阶段

做什么任务，出什么文档

)

(1)项目要求

浪潮优派 TF 项目实战总结报告

了解本项目需要干什么内容，根据本项目的需求，形成一份

详细计划说明书。

(2)项目需求分析

以链家的二手房信息为爬取对象，通过使用 python 中

Scrapy 方法，分析链家二手房的房屋信息的格式，编写代码，

完成项目。

根据房屋列表页的 URL 地址构造规律，动态设置 URL 末端的

页数来获取全部房屋详情页的 URL 地址。这个获取过程涉及两个

循环:页数循环和每页的房屋列表循环;前者是循环 100 页的房

屋列表，后者获取每页房屋列表的房屋详情页 URL 地址。

房屋详情页的 URL 地址末端的一串数字代表房屋 ID，用来

标记房屋的唯一性。在房屋详细页里除了爬取房屋的基本信息之

外，还有能爬取小区详情页的 URL 地址，从而访问小区详情页爬

取小区信息。

小区详情页的 URL 地址末端的一串数字代表小区 ID，这是

标记小区的唯一性。在小区详情页爬取小区基本信息之外，还要

将小区和房屋的数据相互关联，因为会出现一个小区有多套房屋

出售的情况。

（3）创建项目

创建 Scrapy 爬虫项目，在项目中的 spiders 文件夹里创建

houseSpider.py 文件,该文件用来实现 Spider 功能，用于编写

爬虫规则 ; 在配置文件 settings.py 的同一目录下创建

浪潮优派 TF 项目实战总结报告

conf.ini 配置文件，conf.ini 文件用于动态设置各个城市的域

名信息。

（4）项目配置

从网站分析结果来看，整个项目的开发难度相对较为简单，

三个页面的 URL 地址构造规律、响应内容和数据位置都一目了然。

因此，项目 lianjia 只需使用 Scrapy 的基本配置即可。

2. 项目整体功能概要

（大体说明整个项目的功能）

通过爬虫在浏览器上爬取链家二手房的网址

(https://gz.lianjia.com/ershoufang/pg1/)，在房屋详细页里

爬取房屋的基本信息，在小区详情页，爬取小区基本信息，并且

将相关的信息存储到 MySql 数据库中。

3. 团队组成说明(

标明组长、组员及各自分担模块名

)

独立完成

4. 个人承担的开发任务说明

（标明个人模块的完成情况，所开发

的每个模块功能详细说明及界面）

（1）建立工程后可得到如下图示：

浪潮优派 TF 项目实战总结报告

（ 2 ）在项目的配置文件 settings.py 的同一目录下创建

conf.ini 配置文件，conf.ini 文件用于动态设置各个城市的域

名信息。如图所示：

（3）从网站分析结果来看，整个项目的开发难度相对较为简

单，三个页面的 URL 地址构造规律、响应内容和数据位置都一目

了然。因此，项目 lianjia 只需使用 Scrapy 的基本配置即可，

配置代码如下：

浪潮优派 TF 项目实战总结报告

评论收藏

内容反馈

洒水落

粉丝: 3
资源: 1

爬取链家房屋信息-实现代码

Django项目代码：爬取并展示链家上海二手房信息

基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现 毕业设计论文答辩用 1万+字 共41页.docx

基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现 毕业设计论文答辩用 1万+字 共41页.pdf

Python多线程爬取链家房源，保存表格，实现数据可视化分析.pdf

python爬取链家网租房数据

ScrapyMySQL爬取链家网中北京地区租房信息

python爬取链家新房数据

爬取链家网站房屋信息.pdf

python代码实现—爬取知乎神回复

Python爬取数据并实现可视化代码解析

python3实现爬取淘宝美食代码分享

bs4_链家数据爬取_链家数据爬取_

爬取链家官方网站新房的数据（3-5页即可，太多可能被封禁ip）

python 爬取链家网信息

爬取成都链家租房信息租房基本数据信息 .docx

使用python对链家的小区信息进行爬取

Scrapy爬取豆瓣图书Top250代码实现.txt

爬取天气信息的Python爬虫完整实现代码.rar

Python实现爬取知乎神回复简单爬虫代码分享

Python爬取知乎图片代码实现解析

Python爬虫爬取美剧网站的实现代码

xpath练习爬取链家网的结果

Python爬取链家二手房信息并可视化大屏

链家地产---基础知识及报件流程.pptx

爬虫爬取链家 郑州二手房数据

最新资源

基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx

基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.pdf

爬虫爬取链家郑州二手房数据