没有合适的资源?快使用搜索试试~ 我知道了~
题目:招聘网爬取、可视化与机器学习应用1
需积分: 0 3 下载量 48 浏览量
2022-08-08
20:03:13
上传
评论
收藏 6.01MB DOCX 举报
温馨提示
试读
36页
三、设计目标本项目旨在设计出爬取效率较高的爬虫程序、充分而生动的可视化展示、误差较低的期望薪资预测模型 四、技术路线使用threading和queue进行多线程
资源详情
资源评论
资源推荐
题目:招聘网爬取、可视化与机器学习应用
一、完成人
姓名
学号
分工
占比
康育鑫
SA19225203
写爬虫,爬取网页
1/3
周天逸
SA19225509
数据可视化分析
1/3
苟小飞
SA19225149
机器学习应用
1/3
二、设计背景
作为工程硕士,大部分同学的毕业去向主要是就业,但是有些同学对就业
市场的了解还不够充分。因此,本项目爬取了“前程无忧”网站“Java 开发”
岗位的招聘信息,对数据进行可视化展示及分析,并建立了预测期望薪资的机
器学习模型,来帮助同学们加深对就业形势的认识。
三、设计目标
本项目旨在设计出爬取效率较高的爬虫程序、充分而生动的可视化展示、
误差较低的期望薪资预测模型。
四、技术路线
使用 threading 和 queue 进行多线程爬取
使用 lxml 中的 xpath 进行定位;
使用 pyecharts 及 matplotlib.pyplot 对数据进行可视化操作
使用 pandas 对数据进行处理;
使用 sklearn 中操作数据集的函数及机器学习算法函数;
使用 matplotlib 画出描述数据的图像。
五、具体实现
5.1 网络爬虫模块
起初使用的是单线程爬虫爬取前程无忧网站前 200 页关于 Java 职位的数据
(虽然有 1457 页,但发现 245 页以后就不是 Java 职位了,所以就爬前 200 页
数据),每页大概有 50 条,总共将近一万条数据,如下图所示。
总体思路:
由于搜索首页只显示“职位名,公司名,工作地点,薪资,发布时间”这
几个数据,而要给后面数据可视化和分析爬取的数据应该有“职位名,公司名,
工作地点,薪资,经验要求,教育要求,招聘人数,公司性质和公司规模”。所
有我要先爬取职位名的链接(即下图所示),再打开这个链接,爬取我所需要的
全部数据如图所示。
5.1.1 单线程爬虫
思路:
用到的库:requests,lxml 的 etree,pandas,datetime
代码实现:(只贴关键代码)
Page url
list
发送请求
获取响应
提取数据
保存
5.1.2 多线程爬取职位 URL 检验多进程是否能提速
用到的库:threading,queue,lxml,requests,datetime
代码实现:
5.1.3 多线程拆分为两个类的爬虫
思路:定义两个类,一个用来爬取职位 URL,一个用来解析获取数据并
保存。
Page url
list
发送请求
获取响应
提取数据
保存
职位 URL 队列
剩余35页未读,继续阅读
一筐猪的头发丝
- 粉丝: 62
- 资源: 315
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0