# Boss直聘爬虫
## Boss直聘岗位全国薪资水平分析程序
![](https://img.shields.io/badge/Python-3.11-green.svg)
#### Boss直聘官网 - www.zhipin.com
---
## 需求
### 原始需求
设计一个**图形界面**,可以**输入一个岗位名称**,从boss直聘网抓取招聘岗位的数据(**至少包括岗位名称、工作区域、招聘单位、薪酬、工作经验年限、学历、岗位关键字**),并**保存**到MongoDB数据库或redis数据库中,能通过**图形展示该岗位在不同城市的薪酬水平**。
### 需求分析
1. 设计图形界面,使用 **tkinter** 进行图形化界面设计
2. 用户可以输入岗位名称,点击运行按钮运行爬虫程序
3. 需要获得数据(**至少包括岗位名称、工作区域、招聘单位、薪酬、工作经验年限、学历、岗位关键字**)
4. 保存数据到**MongoDB或者Redis**,在 Scarpy框架的 **pipelines** 中进行数据库操作,使用pymongo模块或者redis模块
5. 图形展示该岗位在不同城市的薪资水平,使用条形图进行展示,使用 **matplotlib** 模块中的 **figure** 函数生成条形图
## 数据结构设计
### 爬取字段数据结构
| 字段名 | 数据类型 | 字段描述 |
| ----- | ----- | ----- |
| jobkwd | String | 搜索岗位名 |
| jobName | String | 岗位名称 |
| cityName | String | 工作区域 |
| companyName | String | 招聘单位 |
| salaryDesc | String | 薪酬 |
| jobExperience | String | 工作经验年限 |
| jobDegree | String | 学历 |
### 程序数据结构
| 字段名 | 数据类型 | 字段描述 |
| ----- | ----- | ----- |
| f | Object | 条形图对象 |
| host | String | MongoDB IP |
| port | Numbers | MongoDB 端口 |
| db_name | String | 数据库名 |
| client | Object | MongoDB 连接对象 |
| collection | Object | MongoDB 集合对象 |
| data_df | Object | pandas 数据对象 |
| data_df_meigong_keyword | list | 对应搜索岗位数据列表 |
| data_df_meigong_keyword_salary | list | 对应搜索岗位工资列表 |
| process | Object | 线程对象 |
| root | Object | tkinter对象 |
| lable_value | Object | tkinter状态 |
| entry | Object | tkinter输入框 |
## 模块设计
### 爬虫模块
1. 配置Scrapy框架运行环境,配置变量
2. 岗位搜索页反爬下载中间件
3. 运行爬虫程序
4. 根据爬取岗位名称爬取岗位信息
5. 根据网站反爬机制设置对应的反反爬策略
6. 构建Item 传递pipelines
7. pipelines存入MongoDB
### 图形界面模块
1. 使用tkinter模块生成GUI界面
2. 构建tkinter输入框获得爬取岗位名,按钮点击运行爬虫程序
3. 爬虫模块运行结束后,运行条形图模块
4. 将条形图模块生成的条形图展示在GUI界面
### 条形图模块
1. 连接MongoDB数据库
2. 获取条形图所需要的数据(城市|薪酬)
3. 构建条形图需要的数据对象(x轴:城市|y轴:薪酬平均水平)
4. 将数据对象传入条形图对象
5. 绘制条形图
6. 保存绘制的条形图
没有合适的资源?快使用搜索试试~ 我知道了~
Boss直聘爬虫 - Boss直聘岗位全国薪资水平分析程序 python
共38个文件
pyc:16个
py:8个
xml:5个
需积分: 26 12 下载量 5 浏览量
2023-01-07
11:35:41
上传
评论
收藏 127KB ZIP 举报
温馨提示
设计图形界面,使用 tkinter 进行图形化界面设计 用户可以输入岗位名称,点击运行按钮运行爬虫程序 需要获得数据(至少包括岗位名称、工作区域、招聘单位、薪酬、工作经验年限、学历、岗位关键字) 保存数据到MongoDB或者Redis,在 Scarpy框架的 pipelines 中进行数据库操作,使用pymongo模块或者redis模块 图形展示该岗位在不同城市的薪资水平,使用条形图进行展示,使用 matplotlib 模块中的 figure 函数生成条形图
资源推荐
资源详情
资源评论
收起资源包目录
Boss_Spider-master.zip (38个子文件)
Boss_Spider-master
boss
__init__.py 0B
pipelines.py 667B
spiders
__init__.py 161B
jobspider.py 3KB
__pycache__
jobspider.cpython-310.pyc 2KB
__init__.cpython-311.pyc 161B
__init__.cpython-310.pyc 136B
jobspider.cpython-311.pyc 4KB
bossSpider.cpython-310.pyc 939B
items.py 509B
settings.py 5KB
__pycache__
items.cpython-311.pyc 814B
middlewares.cpython-311.pyc 6KB
__init__.cpython-311.pyc 153B
middlewares.cpython-310.pyc 4KB
items.cpython-310.pyc 468B
__init__.cpython-310.pyc 128B
settings.cpython-311.pyc 3KB
pipelines.cpython-310.pyc 687B
settings.cpython-310.pyc 3KB
pipelines.cpython-311.pyc 999B
middlewares.py 5KB
main.py 4KB
scrapy.cfg 251B
.idea
misc.xml 186B
boss.iml 386B
inspectionProfiles
Project_Default.xml 268B
profiles_settings.xml 174B
modules.xml 260B
.gitignore 176B
encodings.xml 270B
img
条形图模块流程图.png 31KB
爬虫模块流程图.png 23KB
运行.png 62KB
img.drawio 11KB
GUI模块流程图.png 20KB
__pycache__
main.cpython-310.pyc 4KB
README.md 3KB
共 38 条
- 1
资源评论
小夕Coding
- 粉丝: 5851
- 资源: 461
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- QuestionTwo.java
- QuestionOne.java
- OA办公自动化管理系统(Struts1.2+Hibernate3.0+Spring2+DWR).rar
- 简历-求职简历-word-文件-简历模版免费分享-应届生-高颜值简历模版-个人简历模版-简约大气-大学生在校生-求职-实习
- 南京邮电大学数学实验:熟练掌握 Matlab 软件的基本命令和操作
- 简历-求职简历-word-文件-简历模版免费分享-应届生-高颜值简历模版-个人简历模版-简约大气-大学生在校生-求职-实习
- 2017校招真题校园招聘真题算法题(37道)Python源码.zip
- 基于单片机protues仿真的多功能自动饮水机系统设计(仿真图、源代码、演示视频)
- 论文《一种修复流程挖掘事件日志中缺失活动标签的深度学习方法》翻译
- 智慧电厂相关资料发电控制的方式
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功