
大数据采集编程大作业
学 号:
姓 名:
题 目: 我国四个直辖市 2021 年历史天气爬虫及相关分析
专 业:
班 级:
教 师:
2022 年 6 月 13 日
数据采集大作业

目录
一整体设计目标
二需求分析
需求分析
说明
总体介绍
环境介绍
第三方库介绍
三总体框架设计
爬虫程序设计
可视化分析设计
图形界面设计
四详细设计
爬虫程序
可视化分析程序
图形界面程序
数据库设计
异常处理
文件操作
五实现效果
六总结
数据采集大作业

一. 整体设计目标
爬取北京天津上海重庆四个城市的 年的天气数据将可视化分析结
果以及原始数据用图形界面展示
二. 需求分析
2.1 需求分析
爬取我国四个直辖市的 年历史天气数据将其存入数据库 使用
进行可视化分析将分析结果用图形界面展示
2.2 说明
2.2.1 总体介绍
爬取网站https://lishi.tianqi.com/beijing/index.html
北京历史天气网https://lishi.tianqi.com/beijing/202101.html
天津历史天气网:https://lishi.tianqi.com/tianjin/202101.html
重庆历史天气网:https://lishi.tianqi.com/chongqing/202101.html
上海历史天气网:https://lishi.tianqi.com/shanghai/202101.html
网页分析 结构类似主要是四个城市的拼音和年份需要改变
数据采集大作业

2.2.2 环境介绍
环境
环境
使用工具
!" ""#$%##进行爬虫和图形界面展示
&'()!*%!+进行数据可视化分析
!,#*!进行数据库相关操作
2.2.3 第三方库介绍
-../-.. 库是 的第三方库,是目前公认的爬取网页最
好的库,特点有简单,代码简洁,甚至一行代码就能爬取到网页
0!#10!#12 是 的一个库,最主要的功能是从
网页抓取数据。
".-** * 是 ".- 官方的驱动模块,兼容
性特别好
一些第三方模块对 的兼容性不是很好,可能连接不上最新版的
.... 模块是最常用的和 解释器交互的模块.. 模块可供访问由
解释器(#+使用或维护的变量和与解释器进行交互的函数。..2模块
提供了许多函数和变量来处理 运行时环境的不同部分
数据采集大作业

是一些 模块集。它有超过 个类以及 个函
数和方法。它是一个跨平台的工具包,可以在所有的主流操作系统上运行,包
括 3#4,5#%6.,和 !*7。 是多授权的,开发者可以选择使用
通用公共许可证(8)或者商业许可证
"!#!# 是 一 个 在 下 实 现 的 类 "!! 的 纯
的三方库旨在用 实现 "!!的功能,是 最出色的
绘图库,功能很完善,其风格跟 "!!很相似,同时也继承了 的简
单明了的风格,可以很方便地设计和输出二维以及三维的数据
!%!.!%!.是 的核心数据分析支持库,提供了快速、灵活、
明确的数据结构,旨在简单、直观地处理关系型、标记型数据。 !%!. 常用
于处理带行列标签的矩阵数据、与 或 $4*表类似的表格数据,应用于
金融、统计、社会科学、工程等领域里的数据整理与清洗、数据分析与建模、
数据可视化与制表等工作
%% 模块的主要功能就是提供 操作 数据
库的一个 )9通过 % 模块我们可以对数据库进行增删改查等操作
三. 总体框架设计
总体分为三部分爬虫可视化图形界面中间包括数据库操作文件操作异常处理
图一 总体框架设计图
数据采集大作业
- 1
- 2
- 3
- 4
- 5
前往页