毕业论文-基于python对“中国新一线城市”2017年新建商品房房价数据挖掘.docx资源-CSDN文库

版权申诉

186 浏览量 2024-03-29 19:53:28 上传评论收藏 791KB DOCX 举报

资源推荐

资源详情

资源评论

I

基于 Python 对“中国新一线城市”2017 年新建商品房房价

数据的挖掘分析

摘要：在大数据的背景下，各行各业的发展对数据的依赖度越来越高。利用数据

分析，为决策者提供决策依据，更是成为当前商业形式的一大趋势。同时房价信

息牵动着，反映着很多经济、民生、就业的信息。所以房价信息是极有价值的一

种数据信息。在对房价数据分析的难题有二，一是大量数据的获取，二是对数据

的分析和挖掘价值。本文将介绍 python 抓取数据和分析数据，同时提取出具有

商业价值的数据。本文将分为两大模块，一是利用 python 获取数据，二则是利

用 python 分析数据。

关键词：python；数据分析；网络爬虫；python 数据分析

Abstract: In the context of big data, the development of all walks of life

increasingly depends on data. Using data analysis to provide decision-making basis

for decision makers has become a major trend in the current business model. At the

same time, the price information reflects, reflecting many economic, livelihood and

employment information. So house price information is a very valuable kind of data

information. There are two problems in the analysis of house price data. One is the

acquisition of large amounts of data, and the other is the analysis and excavation of

data. This article will introduce python to grab data and analyze data while extracting

commercially valuable data. This article will be divided into two major modules, one

is to use python to obtain data, and the other is to use python to analyze data.

Key words: python; data analysis; web crawler; python data analysis;

II

目录

摘要 ............................................................I

Abstract .............................................................I

目录 ...........................................................Ⅱ

1 利用爬虫获取数据..................................................1

1.1 爬虫原理 ......................................................1

1.2 爬虫程序编写 ..................................................1

1.2.1 框架还是原生 ..............................................1

1.2.2 创建项目 ..................................................2

1.2.3 定义 Item .................................................3

1.2.4 爬虫编写 .................................................4

1.3 数据存储 ......................................................6

1.3.1 编写 item pipeline ...........................................6

1.3.2 启动 item pipeline ...........................................6

1.3.3 开始运行爬虫 ..............................................7

2 数据预处理........................................................7

2.1 数据清洗 ......................................................8

2.2 数据集成 ......................................................8

2.3 数据变换 ......................................................9

3 数据可视化........................................................9

3.1 各城市新房信息可视化 .........................................10

3.2 各城市房价信息可视化 .........................................11

3.3 各城市房价中位数和平均数可视化 ...............................14

4 数据挖掘.........................................................15

4.1 可行性分析 ...................................................15

4.2 线性回归 .....................................................16

4.3 训练数据，建立回归方程 .......................................16

参考文献 ..........................................................18

致谢...........................................................19

第 1 页（共 19 页）

1 利用爬虫获取数据

随着互联网和大数据时代的到来，互联网和大数据的发展相当的迅速和空前，

正改变着各行各业的生活和工作方式，这也是为什么在我们身边有这么多互联网

+的项目或以此为名号的产品的原因。而网络数据爆炸性的增长，对数据分析提

出了新的挑战。即使现在的搜索引擎有了很大的进步，但在浩瀚如宇宙的网络数

据中提取满足数据需求的数据，仍然是一件困难和费时的事情。尤其是一些特殊

的数据，单单利用搜索引擎是不能满足数据需求的。而利用网络爬虫自定义的，

有目的性的爬取数据，能够将数据批量获取汇总，格式化为满足数据分析需求的

数据。这将极大的提升工作效率。

1.1 爬虫原理

网络爬虫又被叫做网络蜘蛛，网络机器人，简称爬虫，简单的解释就是，一

种按照事先指定好的策略，按照一定规则和目的自动浏览互联网，保存互联网信

息和数据的程序。对爬虫程序应用的最为普遍的就是搜索引擎这一类的网站，这

一类的网站通常会通过爬虫程序更新自身的网站内容。并且近年火热的大数据，

其中绝大部分的大数据初创公司依然会依靠爬虫程序来获取各种维度的数据集。

这两类的爬虫程序一般比较复杂和高难度，用以达到高可用的爬虫程序，使其能

持续性的运行，源源不断的获取数据。当然本文的爬虫类型和形态还不能达到大

型的网络爬虫项目。但已经足以满足本文需要的数据分析需求。

爬虫的工作流程大致分为五个步骤，发起网络请求，保存网页内容，解析网

页内容提取数据，格式化数据内容，保存数据。

1.2 爬虫程序编写

在本节，笔者会完成本文获取数据的爬虫程序的编写，本次获取数据的爬虫

会基于著名的爬虫框架 scrapy 进行开发编写。

1.2.1 框架还是原生

剩余20页未读，继续阅读

内容反馈

版权申诉

ohmygodvv

粉丝: 506
资源: 2319

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip