> # ♻️ 资源
> **大小:** 2.15MB
> **文档链接:**[**https://www.yuque.com/sxbn/ks/100013216**](https://www.yuque.com/sxbn/ks/100013216)
> **➡️ 资源下载:**[**https://download.csdn.net/download/s1t16/88247458**](https://download.csdn.net/download/s1t16/88247458)
> **注:更多内容可关注微信公众号【神仙别闹】,如当前文章或代码侵犯了您的权益,请私信作者删除!**
> ![qrcode_for_gh_d52056803b9a_344.jpg](https://cdn.nlark.com/yuque/0/2023/jpeg/2469055/1692147256036-49ec7e0c-5434-4963-b805-47e7295c9cbc.jpeg#averageHue=%23a3a3a3&clientId=u8fb96484-770e-4&from=paste&height=140&id=u237e511a&originHeight=344&originWidth=344&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=8270&status=done&style=none&taskId=ud96bf5f7-fe85-4848-b9c2-82251181297&title=&width=140.1999969482422)
# 基于文本聚类的招聘信息技能要求提取与量化
# 一、研究背景与目的
网上对爬取招聘网站并对爬取的数据进行分析的技术博客多如牛毛,但对爬取的数据进行分析仅集中在分析薪资与地域、学历要求、工作年限、行业、公司规模等十分容易量化因素的关系,从职位描述中提取对应聘者的技能要求等少之又少,但技能因素是求职者评估自己是否能胜任一个岗位的重要因素,与其求职的准备、选择息息相关。
本文通过爬取实习僧网站“数据分析”一职的实习信息,对“职位描述”的文本进行预处理、分句,使用文本聚类的方式提取每条实习信息中其中的描述专业技能的句子,并对其描述的专业技能进行量化,从而探究专业技能对薪资的影响。本文所述的方法还可用于提取其他岗位、其他要求等,为大学生提供最直接、最真实的岗位信息,从而使他们对感兴趣的职业有所了解,对他们的学习方向提 供建议,使其和能更明确地为求职作准备。
# 二、实习招聘信息数据的获取与说明
本文选择实习僧网站中的招聘信息进行数据的抓取。目前国内市场上的招聘平台虽多,垂直于实习领域的却只有“实习僧”一个代表性产品。实习僧网站作为近几年大学生找实习的热门平台,各大公司在上面发布的实习信息更多更全。在本次抓取中,一共抓取了实习僧上所有职位名称包含“数据分析”的实习信息 351条,数据的主体为文本形式的数据。数据抓取的方式为使用python的request 库获取具体实习信息的网页源代码,通过 re 模块使用正则表达式匹配出需要的信息。爬取的数据简介如下表 1 所示:
![image.png](https://cdn.nlark.com/yuque/0/2023/png/2469055/1692839471208-1ec06baf-2f56-4563-b1b7-d926d8470e1d.png#averageHue=%23faf8f7&clientId=u591a18f2-5cdb-4&from=paste&height=626&id=u72e23472&originHeight=783&originWidth=730&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=174734&status=done&style=none&taskId=u4995cb6b-e621-48b5-9eaf-d225a2790b5&title=&width=584)
# 三、文本聚类提取技能要求
本部分通过对招聘信息中“职位描述”的文本进行预处理、分句,利用 kmeans、GMM、NMF 三种文本聚类方法提取出其中与专业技能有关的句子,为后面量化专业技能作准备。
## 3.1 职位描述文本的预处理
由于职位描述是掺杂着标点,特殊符号,及对文本含义无意义的语助词和语气词的完整中文语句,不能直接被计算机理解,在做分析前需进行文本预处理。
文本预处理主要分为分句,分词,删除停用词,删除低频词,文本向量化处理。
### 3.1.1 分句
由于招聘信息中的“职位描述”是大多按序号列出对应聘者的多条要求,技能要求一般包含在其中的某一句或某几句,因此首先要对每条“职位描述”的文本进行分句,分割的符号为句号、分号、冒号、换行符等。
![image.png](https://cdn.nlark.com/yuque/0/2023/png/2469055/1692839517336-c0192d75-d588-4cb4-b0ae-10c356ab8b65.png#averageHue=%23f3f0ec&clientId=u591a18f2-5cdb-4&from=paste&height=396&id=ub6e3937f&originHeight=495&originWidth=698&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=235460&status=done&style=none&taskId=ub0b00e45-180c-458f-82fc-a4ac6b769a9&title=&width=558.4)
### 3.1.2 分词
文本分词是指将文章或语句中的词语按照一定标准进行划分的过程。相对于英语文本而言,汉语由于文本之间没有天然的分隔,处理其有一定的难度。将较长的语句或文章转化成较短的单词或词组,这一过程即中文分词。本研究中,采用基于统计的分词方法,通过隐马尔可夫(HMM)模型的 Viterbi 算法得到分词结果,具体分词过程是通过 Python 中 jieba 分词包实现。另外,由于数据分析领域存在不少专有词汇,如果只用 jieba 包默认的词典进行分析,则会无法识别这些专有词汇,因此在 jieba 包添加了自定义词典。
除本人对数据分析的了解而添加的词汇外,大部分词汇是通过统计 bigram 词频从而发现被误分的词组而添加的。
添加的部分词汇如表 3 所示:
![image.png](https://cdn.nlark.com/yuque/0/2023/png/2469055/1692839539420-6daecff0-f6ee-4e4a-86ef-1eba4ed27e57.png#averageHue=%23f7f6f4&clientId=u591a18f2-5cdb-4&from=paste&height=250&id=udd673c65&originHeight=313&originWidth=573&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=63320&status=done&style=none&taskId=uae16c380-e916-470d-8caf-6ba40dfc6e3&title=&width=458.4)
### 3.1.3 去除停用词和特殊字符
去除停用词指过滤文本中的特殊字符和对文本含义无意义的词语。例如 “的”,“啊”一类的语气语助词,对文本情感倾向判定无意义,却在文本向量 表示时由于占据较大比重而对后续分析造成干扰,降低情感分类的准确性。同时,根据分词文本主题不同,停词表需要进行针对性地修改来提高准确性。因此,研究中用到的停词表在《哈工大停用词表》的基础上,根据帖子文本特点进行了修改。
### 3.1.4 去除超高频词与低频词
去除停用词后先做词频统计,发现词频极高的词,如“数据分析”、“职位描 述”、“工作职责”、“负责”“工作”等不能体现具体岗位要求的词,因此删除前 10 个超高频词。 由于存在大量无意义的低频词(本文定义出现的频率仅为 1 次的为低频词) 可能会降低分类精度,因此对去除停用词后的文本再删除低频词。
## 3.2 文本预处理效果
文本预处理后的文本如表 4 所示,可以看到,每一句职位描述都有大致能看出其明确的类别,日常工作任务描述通常包含“整理”“录入”“搜集”这些动词;用人单位对应聘者专业的要求通常会指定具体专业和年级,如“大三”、“大四”、 “研一”、“研二”、“统计学”、“数学”等;专业技能的描述则会指定应聘者需要掌握什么软件,如“excel”、“sql”等;通用技能、品质描述一般是要求应聘者 “具有良好职业道德”、“细心”、“认真”等;实习时间描述一般是要求应聘者能保证实习“三个月”、“六个月”等,每周到岗“三天”、“四天”等。
由此可以预见,之后的文本聚类将会取得良好效果。
![image.png](https://cdn.nlark.com/yuque/0/2023/png/2469055/1692839586513-ff10f155-08c9-4385-8168-b4c3936742fa.png#averageHue=%23f7f5f2&clientId=u591a18f2-5cdb-4&from=paste&height=476&id=u9f2b6fdf&originHeight=595&originWidth=728&originalType=binary&ratio=1.25&rotation=0&showTitle=false&size=235005&status=done&style=none&taskId=u8685f9bf-e634-4b39-a4b9-9f3d5754772&title=&width=582.4)
## 3.3 文本聚类
因为计算机并不认识中文,因此需要将中文词转特�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
https://www.yuque.com/sxbn/ks/100013216 本文通过对文本进行预处理、分句,使用文本聚类的方式提取其中的描述专业技能的句子, 并对这些句子再一次进行聚类,区分不同层次的技能要求,并对职位的技能要求进行打分,从而实现岗位信息中技能要求的量化,使得技能与薪酬的关系能更深入地分析。
资源推荐
资源详情
资源评论
收起资源包目录
100013216-基于Python实现文本聚类的提取与量化.zip (10个子文件)
text-clustering
src
crawl_shixiseng.py 5KB
tagxedo.png 1.21MB
analysis.py 6KB
数据分析_共47页.csv 260KB
text_cluster.py 19KB
基于文本聚类的招聘信息技能要求提取与量化.pdf 960KB
text_preprocess.py 8KB
salary_and_skill.png 72KB
LICENSE 1KB
README.md 24KB
共 10 条
- 1
资源评论
神仙别闹
- 粉丝: 3776
- 资源: 7469
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功