# BOSS直聘的数据分析
---
## 库依赖
- 基于Python3.6
- Jupyter Notebook
- pyecharts
- pymongo
- pandas
- numpy
---
## 爬虫实现过程
### 分析URL
![url](pics/url.png)
- c后的编号对应不同城市
- page后的数字则对应页码
---
### 爬取所有省、市对应的code
city.py实现地区与对应code的爬取
<img src="pics/1.png" width=200 height=280 />
---
### 根据codelist爬取所有地区的职位
- 爬取内容包含:signal、省、市、职位名称、薪资、公司名称、工作经验、学历要求、公司规模。
<img src="pics/3.png" width=300 height=40 />
- signal字段作用在于重复爬取时跳过已爬取的页面。
- 存入MongoDB中
<img src="pics/2.png" width=300 height=180 />
---
## 进行数据分析
### 读取数据
利用pandas读取数据库中数据
<img src="pics/4.png" width=360 height=190 />
---
### 添加新列:salary
利用正则提取出[职位薪资]
<img src="pics/5.png" width=360 height=190 />
---
### 数据清洗
- 移除重复数据
<img src="pics/6.png" width=360 height=300 />
---
- 数据筛选过滤,去除过高和过低的薪资
<img src="pics/7.png" width=360 height=300 />
<img src="pics/9.png" width=360 height=300 />
- 去除与“数据分析”无关的岗位信息
---
## 数据可视化
<img src="pics/10.png" width=360 height=300 />
---
<img src="pics/11.png" width=360 height=300 />
---
<img src="pics/12.png" width=360 height=300 />
---
<img src="pics/14.png" width=360 height=300 />
---
<img src="pics/13.png" width=360 height=300 />
---
## 机器学习部分分析
<img src="pics/ML部分/过滤薪资.png" width=360 height=300 />
---
<img src="pics/ML部分/过滤后的分布.png" width=360 height=300 />
---
<img src="pics/ML部分/筛选岗位数量前150.png" width=300 height=200 />
---
<img src="pics/ML部分/属性合并.png" width=300 height=500 />
---
<img src="pics/ML部分/划分训练集与测试集.png" width=600 height=300 />
---
<img src="pics/ML部分/为标签编码.png" width=350 height=400 />
---
### **变量重要性**
<img src="pics/ML部分/变量重要性.png" width=350 height=400 />
---
<img src="pics/ML部分/重要性分析.png" width=500 height=150 />
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于BOSS直聘“数据分析师”职位信息的爬虫实现、数据分析、数据可视化及机器学习预测与结果分析 要基于BOSS直聘网站上的“数据分析师”职位信息进行爬虫实现、数据分析、数据可视化以及机器学习预测与结果分析,你可以按照以下步骤进行: 1. 爬虫实现 网站分析:首先,你需要分析BOSS直聘网站的结构,了解如何获取“数据分析师”职位的URL模式、请求参数等。 请求模拟:使用Python的requests库或其他HTTP请求库模拟浏览器发送请求,获取网页内容。 解析数据:使用BeautifulSoup、lxml或pyquery等库解析HTML内容,提取出你感兴趣的职位信息,如职位名称、薪资、工作地点、职位要求等。 处理分页和限制:BOSS直聘可能有限制请求频率或需要处理分页的情况,你需要在爬虫中考虑这些因素。 数据存储:将爬取的数据存储到数据库(如MySQL、MongoDB)或CSV文件中,以便后续分析。 2. 数据分析 数据清洗:检查数据中的异常值、缺失值等,并进行必要的处理。 数据探索:使用Pandas等库对数据进行初步的探索性分析,了解数据的分布、相关性等。 特征工程:根据分析目的,从
资源推荐
资源详情
资源评论
收起资源包目录
基于BOSS直聘“数据分析师”职位信息的爬虫实现、数据分析、数据可视化及机器学习预测与结果分析。.zip (35个子文件)
content
.gitattributes 33B
analysis&visualizations
jobs_analysis.ipynb 118KB
city_data
city.ipynb 7KB
city.py 249B
city.csv 10KB
spiders
citylist_spider.py 1KB
jobs_spider.py 4KB
pics
ML部分
变量重要性.png 69KB
过滤薪资.png 41KB
过滤后的分布.png 64KB
随机森林训练集误差.png 22KB
筛选岗位数量前150.png 28KB
重要性分析.png 76KB
决策树训练集误差.png 8KB
为标签编码.png 65KB
划分训练集与测试集.png 57KB
属性合并.png 38KB
编码分类结果.png 116KB
10.png 79KB
9.png 58KB
3.png 29KB
12.png 46KB
url.png 11KB
1.png 76KB
11.png 56KB
13.png 115KB
6.png 50KB
5.png 38KB
4.png 42KB
8.png 38KB
7.png 38KB
2.png 34KB
14.png 206KB
analysis&machine-learning
jobs_ml_reg.ipynb 100KB
README.md 2KB
共 35 条
- 1
资源评论
生瓜蛋子
- 粉丝: 3824
- 资源: 5626
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功