岗位招聘信息大数据分析实践(数据分析岗)_行业招聘岗位数据分析资源-CSDN文库

共70个文件

csv：55个

ipynb：7个

py：2个

数据分析

43 浏览量 2024-01-20 23:41:53 上传评论收藏 25.83MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

岗位招聘大作业资源.rar （70个子文件）

项目文件

项目报告-封面已去.doc 1.09MB

data

上海.csv 139KB

福州.csv 39KB

深圳.csv 150KB

广州.csv 141KB

成都.csv 147KB

zhilian1.csv 133.57MB

Boss.csv 4KB

西安.csv 122KB

北京.csv 137KB

lagou_new.csv 303KB

lagou_WH.csv 68KB

长春.csv 17KB

前程无忧断点记录.txt 8B

job_ends - 副本.csv 3.78MB

lagou_GZ.csv 91KB

天津.csv 142KB

51Job.csv 92KB

lagou_CQ.csv 80KB

lagou_XA.csv 27KB

武汉.csv 146KB

长沙.csv 68KB

哈尔滨.csv 19KB

青岛.csv 48KB

job.csv 1.81MB

无锡.csv 22KB

lagou_NJ.csv 53KB

大连.csv 130KB

lagou_SH.csv 117KB

宁波.csv 18KB

zhilian.csv 945KB

51job_comp.csv 77.27MB

51Job1.csv 201KB

聚类结果.png 11KB

job_end.csv 2.67MB

沈阳.csv 40KB

Listings.csv 16.09MB

济南.csv 68KB

苏州.csv 41KB

厦门.csv 130KB

前程无忧_51Job异常链接记录.txt 10KB

杭州.csv 129KB

lagou_SZ.csv 65KB

郑州.csv 103KB

lagou_HZ.csv 73KB

data_analysis_job.csv 13MB

lagou_BJ.csv 135KB

lagou_TJ.csv 40KB

train.csv 3.34MB

lagou.csv 872KB

job_anl.csv 3.82MB

job_ends.csv 3.6MB

fraud_data.csv 7.34MB

lagou_clean.csv 590KB

zhilian.xlsx 395KB

重庆.csv 133KB

job_data.xlsx 571KB

lagou_CD.csv 95KB

zhilian_new.csv 500KB

lagou_data.csv 57KB

南京.csv 134KB

爬虫-预处理-分析-可视化代码

51Job爬虫.ipynb 103KB

拉勾网.ipynb 59KB

数据分析-可视化.ipynb 110KB

智联爬虫-可视化-预处理.ipynb 568KB

智联动态页面爬虫代码.ipynb 5KB

智联爬虫-可视化-预处理.py 744B

51Job爬虫.py 7KB

预处理-MongoDB.ipynb 3.85MB

拉勾网清洗-预处理.ipynb 369KB

一、课题背景和目的

社会经济快速发展和人们生活水平显著提高，但也带来了越来越多的社会问题。就

业问题尤为突出。因此，招聘信息的展示变得非常重要。但是，面对海量的招聘信息，

人们很难提取自己想要的信息，应聘者也是如此。随着网络爬虫技术的发展，如今的毕

业生们可以使用网络爬虫来获得就业形势的第一手信息。网络爬虫是一种按照一定的规

则，自动地从网站上抓取信息的程序，它可以模拟人类的浏览行为，向网站发送请求，

获取网页的源代码，然后从中提取出有用的数据，如文本、图片、链接等。爬取招聘信

息的背景，主要是为了了解不同的行业、地区、职位、薪资、技能等方面的招聘需求和

供给情况，从而为求职者和招聘者提供有价值的参考和指导。但是面对着如此多的招聘

信息，如果一条一条招聘信息地看，可能对于我们并没有什么实质性的帮助。因次，还

需要使用到一些大数据分析以及可视化的方法。所以，本次大作业的就是为了解决上述

问题而进行的一次实践。

本次大作业是为求职者提供更多的招聘信息，帮助他们找到合适的工作，了解市场

的行情和竞争，提高自己的竞争力和职业规划。通过分析网络爬虫，研究智联招聘网站、

51Job 网站、拉勾网网站数据，尝试用 Python 技术开发，尽可能多的爬取多个招聘网站

的招聘信息，使用非关系数据库 MongoDB 存储数据，并检测判断结果，最后可视化分

析，为用户提供精确的查询结果。基于 Python 的招聘网站信息爬取与数据分析实践旨

在提高数据挖掘的效率，便于科学的管理和分析招聘数据。

二、课题的需求及主要功能

爬取招聘网站的招聘信息，如智联招聘网站、51Job 网站、拉勾网网站等，根据不

同的城市、职位和页码来构造网址，使用 requests 和 BeautifulSoup 来获取和解析网页内

容，提取出工作名称、工作地点、公司名称、公司类型、薪资待遇、经验学历、标签、

福利待遇等信息，保存为 csv 文件并且使用非关系型数据库 MongoDB 存储。

分析招聘信息的数据，使用 pandas 和 numpy 等库来对数据进行清洗、处理和统计，

如去除缺失值、异常值、重复值等，并进行例如：平均薪资分析、薪资分布分析、行业

薪资分析、学历与薪资关系分析、工作经验与薪资关系分析、不同因素对薪资的影响关

系等方面通过爬虫获取到的招聘信息对这一类岗位进行分析。

可视化招聘信息的数据，使用 matplotlib、seaborn、echarts 等库来对数据进行可视

化展示，如使用柱状图、饼图、折线图、散点图、箱线图、词云图等，展示不同维度的

数据特征和趋势，如全国各城市数据分析岗平均月薪、薪资分布箱线图、不同学历要求

的平均薪资等。

最后使用已拥有的招聘信息的数据，将符合输入条件的招聘数据计算平均薪资并将

这个平均薪资作为预测值，这是对此次大数据实践的一个简单应用。

三、课题数据的收集过程及工具

首先确定爬取目标：根据数据分析的需求和目的，确定要爬取的网站和数据类型，

例如爬取某个招聘网站的职位信息。其次，分析网页结构：使用浏览器的开发者工具或

者在线网页分析工具，分析目标网站的网页结构，如网址格式、网页标签、数据位置等，

找出数据的规律和特征，为后续的数据提取做准备。接着写爬虫代码：使用 Python 或

者其他编程语言，编写爬虫代码，实现对目标网站的请求、响应、解析、提取、存储等

功能，可以使用一些现成的爬虫框架或者库，如 request 请求网页内容，BeautifulSoup4

解析网页，Selenium 等。接着运行爬虫程序，开始爬取数据，可以设置一些参数，如爬

取的深度、频率、间隔、代理、重试等，以提高爬取的效率和质量，同时避免被目标网

站的反爬措施屏蔽或封禁。检查爬取结果：检查爬取的数据是否完整、正确、有效，如

有错误或缺失，可以调整爬虫代码或参数，重新爬取，直到满足数据分析的要求。

面向数据分析类岗位招聘信息大数据分析实践

在爬取智联招聘网站时，由于需要滑动按钮验证，所以使用的是 request 和 xpath。

首先打开网页，查看翻页时网页 URL 的变化规律，接着输入”数据分析”搜索岗位，同

样查看 URL 的变化规律。然后查看网页的源代码，找到要爬取的数据的 xpath 属性定位。

编写 python 爬虫代码，爬取数据并保存到 csv 文件。

接着爬取 51Job 网站的招聘信息，使用的是 selenium 和 xpath。和智联一样查看网

页的规律，并找到查询条件的一些取值，例如按城市爬取时，在 URL 上加上

jobArea=010000,表示的是爬取北京的数据分析岗招聘信息。

最后，爬取拉勾网的招聘数据，爬取的前期准备工作和上述一样，由于拉勾网的数

据和其他俩个网站的数据不太一致，爬取后续需要处理。

四、课题数据的预处理过程

爬取数据的预处理过程，主要是为了对爬取的数据进行清洗、处理和统计，以提高

数据的质量和可用性。爬取数据的预处理过程中，先查看数据的维度：多少行多少列。

检查缺失值，由于数据规模较大，缺失值非常少，直接删除含有缺失字段的记录。由于

次大数据分析实践中主要是对月平均薪资进行分析，删除包含”天”或”面议”的薪资记录，

由于三个招聘网站对于薪资的单位不一致，需要对薪资单位进行转换，统一以”万”为单

位，数据预处理结束。当然，有时还需要格式化数据：将爬取的数据转换为统一的格式，

如 JSON、XML、CSV 等，便于后续的分析和处理。去重数据：检测爬取的数据中是否

存在重复的内容，如相同的网页、文章、图片等，删除重复的数据，只保留唯一的数据

等。

五、课题多源异构融合的方案

多源异构数据融合的方案，主要是为了充分利用不同类型、不同结构、不同来源的

数据，提高数据的质量和价值。多源异构数据的融合，需要解决数据的一致性、完整性、

可信度、可用性等问题，以及数据的表示、转换、集成、分析等技术。本次大数据分析

实践的数据来源于智联招聘、拉勾网、51Job 三个网站，有可能会出现爬取的个别属性

不一致，属性缺失等情况，为了进行多源融合，在编写爬虫代码时，就避免出现这类问

题。还可能会出现个别属性的单位不一致问题，例如薪资单位，可以使用 pandas 提供

的库函数统一单位，还需要使用正则表达式提取爬取的数据属性中的有用信息并统一。

由于智联和 51Job 爬取时已经统一了属性，所以只需要处理拉勾网爬取的数据。

图 5.1 分离属性

接着转换工资单位为数值型。

面向数据分析类岗位招聘信息大数据分析实践

图 5.2 薪资单位转换

接着再分离出公司类型和公司规模，去除不需要的属性，输出 csv 文件。

图 5.3 查看数据

六、课题数据的存储方案

这次大数据分析实践中使用的是非关系型数据库 MongoDB，爬虫数据使用非关系

型数据库 MongoDB 的存储方案，主要是为了利用 MongoDB 的灵活性、可扩展性和易

用性，来存储结构不固定的文档型数据。MongoDB 是一种基于文档的非关系型数据库，

它可以存储任意结构的 JSON 格式的数据，不需要事先定义表结构，也不需要进行数据

转换，当然，也可以存储 csv 格式的数据，非常适合存储爬虫数据。数据的存储方案如

下，先使用爬虫程序将爬取的数据输出为 csv 格式，数据整理完成后，使用

NoSQLBooster 工具连接本地 MongoDB 服务，将 csv 格式的数据存储到 MongoDB 数据

库，当然也可以使用 python 脚本存储到 MongoDB 数据库。

使用 python 代码读取数据集并存储到 MongoDB 数据库。使用 MongoDB Compass

查看存储情况。

评论收藏

内容反馈

Sunburst?

粉丝: 131
资源: 1

岗位招聘信息大数据分析实践(数据分析岗)

数据分析岗位招聘数据.csv

项目来源：选用boss直聘网站的数据分析职位的招聘数据

数据分析师岗位信息数据集

2022年数据分析岗位招聘数据.xlsx

某招聘网爬取数据分析岗位数据.xlsx

最新Pyhton招聘岗位数据分析、数据可视化

对某招聘网站的数据分析岗位的分析.pdf

基于Python的招聘网站职位数据分析及可视化.zip

基于python的招聘职位数据分析与可视化项目源码.zip

爬取拉勾网“全国”“数据分析”、“深圳市”“数据分析”岗位招聘信息并进行分析.ipynb

基于Hadoop技术的大数据就业岗位数据分析.docx

基于Python的招聘网站招聘信息分析.zip

Python招聘数据分析可视化系统(只有PPT、文献综述、开题、论文 无源码！)

基于python的51job工作岗位数据分析与可视化-交互式数据可视化期末作业项目.zip

2021厦门招聘数据分析.rar

毕业设计（Boss直聘岗位数据分析）

互联网数据分析岗位校招备战手册

Python数据分析与可视化大作业 + 源代码 + 数据 + 详细文档

基于Python Django招聘数据分析可视化预测系统 .zip

基于Python爬虫实现天气预报和数据可视化分析，应付数据分析大作业

EDA探索式数据分析案例数据集

5-8抖音数据分析数据集

Python数据分析项目实践，包括数据读取、评估、清洗、分析、可视化机器学习相关内容等

python数据分析大作业-爬虫、建立模型、可视化、结论分析

统计数模历年优秀论文-全国大学生统计建模大赛

origin2021下载免费分享

2023高教社数学建模C题 - 蔬菜类商品的自动定价与补货决策【数据处理详细代码】

最新资源

Python招聘数据分析可视化系统(只有PPT、文献综述、开题、论文无源码！)