A07 基于大数据的岗位画像和求职者画像设计
新增: 前台的四个页面以及用户数据收集。
/*
通过网络爬虫爬取智联招聘、51job、拉勾网等招聘网站上,大数据相关职位的招聘信息。
*/
1. 需求分析流程(√已完成,*进行中,其余未开始):
(1) 了解‘岗位画像’和‘求职者画像’√
(2) 查找同类型产品*
(3) 分析本项目的基本流程√
(4) 分析爬虫需要设置的初始条件√
(5) 分析爬虫需要爬取的公司信息和职位信息(根据各大招聘网站分析)√
(6) 查找如何结构化处理数据的资料*
(7) 提取‘可能’的岗位工资影响因素√
(8) 设计‘岗位需求能力图谱’的属性√
(9) 分析求职者如何匹配公司(或根据求职者的信息如何推荐公司给求职者)
(10)设计‘岗位画像’与‘求职者画像’
(11)分析如何展示分析结果及两个画像
(12)分析已有需求仍存在哪些问题
2. 用户画像: https://www.cnblogs.com/cescyang/p/6017608.html
(1) 用户画像是对现实世界中用户的数学建模,它包括两方面:
① 一方面是描述用户,没有说人,是说明它跟业务密切相关,它是从业务中抽象出
来的,因此来源于现实,高于现实。
② 第二个是用户画像它是一种模型,是通过分析挖掘用户尽可能多的数据信息得到
的,它是从数据中来,但对数据做过了抽象,比数据要高,后面所有用户画像的
内容都是基于这个展开的。比如刚刚说的月光族,这个肯定是挖掘分析出来的,
不是说原来的数据中包含月光族这个标签,所以说这是它的两层含义。
(2) 理解:
① 画像对应类,分为岗位画像、求职者画像
② 显性属性对应爬去信息
③ 隐形属性对应分析结果
3. 基本流程:
(1) 设置爬虫条件(页面)
① 管理员对网站列表增删查改
1) 选择爬取的招聘网站(可多选,网站是确定的)
2) 增加、修改爬虫的职位或单个 url:
a. 当管理员输入职位关键字时,异步获取相关的 url,爬取并显示职位目录列
表
3) 删除爬虫的职位及其相联 url 或仅删除单个 url