I
《数据采集技术》
58 同城二手房源爬取
姓 名: 齐敬业
学 号: 22120507037
班 级: 数据 2201
完成日期: 2024.06.30
II
概述
完成概括:
本项目完成了 58 同城网站二手房源的爬取,获取了 414 条
58 同城网站上二手房源的数据,包括标题、房屋总面积、房屋
星级、房屋总价、房屋单价、来源等内容,并可以将获取到的数
据写入数据库中,实现了数据的永久存储。本项目完成了对数据
的清洗,并将清洗完的数据进行进一步的处理和分析。本项目还
包含动态加载数据功能,能够通过异步请求从指定网站动态抓取
数据。其可视化模块中的不同图表(包括折线图、饼图、散点图
和柱状图)通常依赖于动态加载的数据来生成。
尽管项目具有可视化模块和交互式元素,但是并未使用多线
程爬虫来提高爬取速度。如果动态加载大量数据或频繁进行异步
请求,这可能会影响页面加载速度和用户体验。特别是在网络条
件不佳或数据量较大时,可能导致页面响应缓慢或卡顿。项目也
需要进一步优化 UI/UX 设计,使用户能够轻松理解和操作动态加
载的数据和可视化效果。
成绩
评语
签名:
时间:
III
目录
第 1 章 背景介绍.................................................................................................1
1.1 58 同城二手房网站介绍......................................................................1
1.2 爬虫相关库介绍....................................................................................1
1.3 BeautifulSoup 库介绍.......................................................................1
1.4 Matplotlib 库介绍.............................................................................1
1.5 Wordcloud 库介绍...............................................................................2
第 2 章 爬取方法.................................................................................................3
2.1 获取页面...............................................................................................3
2.2 解析页面...............................................................................................4
2.3 提取数据...............................................................................................5
第 3 章 爬取过程分析.........................................................................................8
3.1 对网站首页发送 HTTP 请求.................................................................8
3.2 创建数据存储文件................................................................................8
3.3 解析 HTML 提取信息..............................................................................8
3.4 数据处理与分析....................................................................................9
3.5 绘制图表..............................................................................................10
3.6 词云图..................................................................................................13
3.7 数据可视化..........................................................................................13
第 4 章 爬取结果分析.......................................................................................14
4.1 数据清洗..............................................................................................14
4.2 数据结果展示......................................................................................14
4.3 数据可视化.........................................................................................15
第 1 章 背景介绍
1
第 1 章 背景介绍
1.1 58 同城二手房网站介绍
58 同城二手房网站作为中国领先的在线分类信息平台之一,专注于为广大
用户提供全面、便捷的二手房买卖服务。随着中国房地产市场的快速发展,二手
房交易成为越来越多购房者和投资者的首要选择。在这样的市场背景下,58 同
城二手房网站通过其强大的平台优势,为用户提供了一个便捷而高效的交易平台。
58 同城二手房网站的核心功能包括浏览、搜索、咨询、发布和预约看房等
多项服务,每一项都旨在满足用户在二手房交易中的各种需求和期待。用户可以
轻松浏览各类房源信息,涵盖公寓、别墅、商铺等多种类型,详细展示房屋的基
本信息、价格、地理位置及周边配套设施等关键信息。这种全面且精准的信息展
示,使用户能够迅速准确地了解市场动态,做出明智的购房决策。
1.2 爬虫相关库介绍
本项目实现的是一个基础的网页爬虫,直接使用了 Python 标准库和几个常
用的第三方库(requests、BeautifulSoup、pandas)来构建。此爬虫主要用于从 58
同城二手房页面抓取房产信息,并将结果保存到 CSV 文件中。
1.3 BeautifulSoup 库介绍
BeautifulSoup 是一个 Python 库,用于从 HTML 或 XML 文件中提取数据。
它支持多种解析器,使得文档导航、查找和修改变得简单易用。此外,它还支持
CSS 选择器和 XPath 选择器,能够输出字符串、字典或列表等多种格式,同时兼
容不同编码如 UTF-8 和 GBK。通过 BeautifulSoup,可以解析分类页面并提取详
细信息链接,然后循环遍历每个链接以获取和提取所需的详细信息内容。
1.4 Matplotlib 库介绍
Matplotlib 是一个 Python 的绘图库,它提供了丰富的绘图工具和函数,可
以创建各种类型的静态、动态和交互式的图表和可视化效果。Matplotlib 使用户
第 1 章 背景介绍
2
能 够以简洁而美观的方式呈现数据,并支持多种绘图样式和图表类型,包括折
线图、散点图、柱状图、饼图、热力图等。
1.5 Wordcloud 库介绍
Wordcloud 是一个用于生成词云图的 Python 库,它能够根据给定的文本数
据生成具有艺术性的词云图像。词云图是一种以词频为基础的可视化方式,将文
本中出现频率较高的词汇以较大的字体大小展示,并根据词频的大小、颜色等进
行渲染,从而形成一个具有视觉吸引力的词云图。