# 摘 要
目前,越来越多不同特点的应聘者和越来越细化的岗位之间,存在巨大的信息不对称。因此高效、准确的将合适的人推荐到合适的岗位,有很大的实际意义。本文针对这一工程实践问题,提出“简历智能推荐算法”:将求职简历和工作表述进行匹配。
本文采用自然语言处理的多种方法解决简历匹配的问题。首先,利用正则表达式基于规则的提取了求职简历中结构化字段的信息。这部分工作为之后按规则筛选简历提供接口。之后,对于求职简历和工作描述的非结构化字段,提取了关键词信息:利用 6000 多句带标注的数据,有监督的训练了条件随机场模型(CRF)和改进的 bi-LSTM-CRF 模型。分析了这两种不同模型,在技术关键词提取方面的效果。随后,分析了提取关键词的“长尾效应”,并利用自编码器无监督的学习了文本的关键词向量的表示。再通过主成分分析,可视化关键词向量。结果表明匹配相同工作描述的文本的关键词向量,有聚类的现象。这一结果表明:通过自编码器确实学到了有含义的关键词向量。之后,利用多层感知机模型,对提取到的求职简历和工作描述进行分类。利用 51job 上提供的 172 封匹配的数据训练了模型。
最后本文分析了模型训练的结果:在测试数据集上,画出了模型预测结果的 ROC 曲线,并计算了 AUC。模型最终的 AUC 达到 0.95,实现了比较好的分类效果。
关键词:自然语言处理,长尾效应,简历匹配,机器学习
# 一、绪论
## 1.1 课题背景及目的
### 1.1.1 现实意义
目前,越来越多不同特点的应聘者和越来越细化的岗位之间,信息不对称广泛存在。如何能够高效、准确的将合适的人推荐到合适的岗位,成为各大公司关注的重点[1]。特别是本项目关注的技术岗位的智能推荐,由于技术岗位的分化日趋复杂,人们的专业背景比较之前更加多样,各个新兴公司对于员工的要求更加多元,催生了一大批招聘网站和猎聘公司。[5] 这些网站的推送和公司的筛选,花费了大量的人力资源。根据统计:报告显示,截至 2014 年,网络招聘市场份额达到 33.6 亿元[16]如果能够设计一套更加智能的简历自动推送算法,将能够极大提高人们的工作效率,产生积极的社会影响。
### 1.1.2 理论意义
简历的智能推送算法,涉及到自然语言处理中的许多重要课题。简历和岗位描述,都是文本。正确的进行推送,需要挖掘文本背后的语义。因此,项目实现过程中,可能会涉及到:名称实体识别(下文缩写为 NER), 推荐系统(下文缩写为 RS)等自然语言处理的重要课题。这里会遇到语义复杂性的问题,因此,会涉及歧义消解,属性抽取等基础理论的研究与应用来解决这些困难。
特别地,简历的文本信息中存在大量实体歧义的问题需要解决。同一个技术,同一个公司和岗位,可能在简历中出现不同的描述方式。这些歧义的消解,对于后面的推荐效果影响很大:如果实体个数多,并且存在大量未合并的冗余,就会导致后面推荐的部分,存在更加严重的“长尾”现象。这一问题,对于推荐系统的有效性,构成巨大挑战。为了应对这一挑战,本课题将会用到知识图谱的相关理论,解决信息提取时候样本稀疏的问题。
最后,该算法可以为许多类似的问题提供解决的思路。比如法律卷宗的智能检索等。
## 1.2 国内外研究状况
目前,有不少关于简历智能推荐的研究和应用 [2][3][4]。其中,比较普遍的模式为:搭建一个投放、展示简历的平台。有的课题在其上设计了简单的推荐算法。刘、于、杜,基于 ASP 实现了一个毕业生就业招聘网站。该网站,减少了用人单位的招聘和毕业生的应聘之间不必要的限制,使得两方有了更广泛的交流,提高了双向选择的效率和成功率[4]。罗仕鉴 、陈杭渝,同样设计了同一个基于网站的平台,展示学生简历信息[3]。然而这些工作只提供了一个更快、更便捷的平台。仍然需要资深的工作人员筛选简历。在应聘者越来越多,应聘岗位越来越复杂的当下,这将耗费大量的人力资源。陈晓、王建民,提出并实现了一种新的算法,这种算法基于用户需求,对过往简历信息进行学习,建立该职位对于简历的需求模型,达到自动向用户个性化推荐简历的目。[2]然而,对于本项目针对的技术岗位招聘,由于岗位需求的多样性和简历特点的多元化,以及标注数据的匮乏,这种启发式的算法不适用。 该系统,采用了概率分类模型,分别从简历和工作描述中提取了关键实体,并对他们进行匹配。同样,对于本课题针对的复杂岗位招聘,该方法将遇到“长尾效应”等困难。
## 1.3 研究方法与研究内容
本课题针对的问题是,技术岗位简历的智能推送。利用猎聘公司员工工作过程中留下的标记以及相应简历和工作描述的数据,设计简历智能推送算法。这一推荐过程,等价于预测工作描述对于简历的偏好。在预测的时候,需要进行信息的筛选和过滤,提取从文本中提取有用的信息。这与推荐系统的定义一致。因此,本课题参考关于推荐系统的设计方法。
由于简历和工作描述主要以非结构化的文本构成,因此,主要的工作重点分为两部分:文本特征的提取和特征的相似度比较。
对于本课题,文本信息特征的提取十分困难。由于技术岗位和相关技术数量庞大、种类繁多,因此直接提取的特征稀疏,难以匹配。为了解决这一困难,本文首先利用带标注的数据,训练关键词提取模型,构建关键词词表。之后采用自编码器,进一步提取和压缩,得到富含语义的关键词特征。
得到提取的特征后,进行简历推荐的过程可以参考推荐系统的若干算法(Recommendation System)。目前推荐系统主要分成两种类型[10][11]:Content-based System (CBS)和 Collaborative filtering systems (CFS)。由于每个工作描述对应的人和总人数相比差距很大,CFS 对应的矩阵过于稀疏,不容易训练。并且,通常新的工作描述没有任何简历与之对应,因此,CRS 方法不适用。因此,基本的思路是采用 CBS 的方式。具体采用的方法是,利用匹配好的求职简历和工作描述的数据,经过上面介绍的提取关键词特征之后,训练一个多层感知机,完成分类任务:判断一个求职简历和一份工作描述匹配的概率。
## 1.4 论文构成
本文分为五个部分:
第一部分为绪论。绪论部分介绍了问题的背景和现实意义,介绍了国内外相关领域的研究进展。并简单介绍了本文的研究思路和文章组织
第二部分为背景知识。这部分介绍了文章中使用的主要模型的原理已经相关研究。包括用来提取技术关键词的模型:条件随机场模型,和改进过的 bi-LSTM-CRF 模型。以及用来做无监督的特征提取的自编码器模型。最后,介绍了用来分类的多层感知机模型。
第三部分为算法的设计与实践。这部分详细介绍了建立智能推荐算法的顶层设计。并进一步介绍了数据的格式以及对数据的处理。最后,介绍了每一部分模型的结果、参数等实现细节
第四部分为算法评估。这一部分介绍了各个部分的评价标准与结果分析。依次对文章中使�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
对简历和职位要求的文本信息进行信息抽取,实现简历的智能推荐算法。主要包含两个部分:文本信息的提取和分类模型的搭建。最终对给定输入的简历和工作描述的匹配程度进行打分,实现简历的智能推荐。
资源推荐
资源详情
资源评论
收起资源包目录
基于Python实现简历智能推荐算法【100011022】 (337个子文件)
checkpoint 79B
model-31680.data-00000-of-00001 29.96MB
毕设_金燊_14231011_v3.doc 1.07MB
23_14231011_金燊.doc 1.06MB
金燊_毕设_终稿.doc 1.02MB
毕设_金燊_14231011_final.doc 1MB
北航-理工类毕业论文格式模板2015.09 - 副本.doc 315KB
毕业设计论文模板2.doc 285KB
outline.docx 691KB
encoder.checkpointer.hdf5 26.82MB
classifer.checkpointer.hdf5 300KB
╓∞└Φ╦╔-╝╝╩⌡╤╨╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 89KB
╓∞└Φ╦╔-╝╝╩⌡╤╨╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 89KB
╢í╝╤├╖-▓·╞╖╛¡└φ-┴╘╞╕═°╝≥└·.html 67KB
╢í╝╤├╖-▓·╞╖╛¡└φ-┴╘╞╕═°╝≥└·.html 67KB
├½╙╤╖ó-╕▀╝╢╫▄╝α-┴╘╞╕═°╝≥└·.html 66KB
├½╙╤╖ó-╕▀╝╢╫▄╝α-┴╘╞╕═°╝≥└·.html 66KB
╡╦╨╟┴┴-╥╞╢»┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 63KB
╡╦╨╟┴┴-╥╞╢»┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 63KB
▓▄┐¬╬─-╧ε─┐╫▄╛¡└φ-┴╘╞╕═°╝≥└·.html 62KB
▓▄┐¬╬─-╧ε─┐╫▄╛¡└φ-┴╘╞╕═°╝≥└·.html 62KB
曹开文-项目总经理-猎聘网简历.html 62KB
┴⌡└┌-╥╞╢»┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 60KB
┴⌡└┌-╥╞╢»┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 60KB
╬Γ╧╚╔·-╤╨╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 58KB
╬Γ╧╚╔·-╤╨╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 58KB
╓▄▒╛╗¬-┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 57KB
╓▄▒╛╗¬-┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 57KB
┬φ╟¿-iOS-┴╘╞╕═°╝≥└·.html 56KB
┬φ╟¿-iOS-┴╘╞╕═°╝≥└·.html 56KB
┴╬╥╦╒▄-╝╝╩⌡╫▄╝α-┴╘╞╕═°╝≥└·.html 56KB
┴╬╥╦╒▄-╝╝╩⌡╫▄╝α-┴╘╞╕═°╝≥└·.html 56KB
└ε╩ñ▒°-iOS┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 53KB
└ε╩ñ▒°-iOS┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 53KB
└ε╙┬-SPMleaderú¼▓·╞╖╧▀╓≈SEú¼║ú═Γ╘╦╙¬╔╠╧ε─┐╛¡└φ-┴╘╞╕═°╝≥└·.html 53KB
└ε╙┬-SPMleaderú¼▓·╞╖╧▀╓≈SEú¼║ú═Γ╘╦╙¬╔╠╧ε─┐╛¡└φ-┴╘╞╕═°╝≥└·.html 53KB
┐┬╬─-╕▀╝╢╟░╢╦┐¬╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 53KB
┐┬╬─-╕▀╝╢╟░╢╦┐¬╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 53KB
║½╒┼-╥╞╢»┐¬╖ó╛¡└φíó▓·╞╖╛¡└φíó┴¬║╧┤┤╩╝╚╦-┴╘╞╕═°╝≥└·.html 50KB
║½╒┼-╥╞╢»┐¬╖ó╛¡└φíó▓·╞╖╛¡└φíó┴¬║╧┤┤╩╝╚╦-┴╘╞╕═°╝≥└·.html 50KB
╓▄╧■╘╞-╚φ╝■╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 50KB
╓▄╧■╘╞-╚φ╝■╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 50KB
周晓云-软件工程师-猎聘网简历.html 50KB
└ε╫┌▓¿-ProjectManager-┴╘╞╕═°╝≥└·.html 50KB
└ε╫┌▓¿-ProjectManager-┴╘╞╕═°╝≥└·.html 50KB
╥╢┼⌠│¼-iOS┐¬╖ó╓≈╣▄-┴╘╞╕═°╝≥└·.html 49KB
╥╢┼⌠│¼-iOS┐¬╖ó╓≈╣▄-┴╘╞╕═°╝≥└·.html 49KB
╢╬╜¿▓¿-╥╞╢»┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 48KB
╢╬╜¿▓¿-╥╞╢»┐¬╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 48KB
╗╞╨í┴·-ResearchAssistant_ElectronicEngineer-┴╘╞╕═°╝≥└·.html 48KB
╗╞╨í┴·-ResearchAssistant_ElectronicEngineer-┴╘╞╕═°╝≥└·.html 48KB
═⌡╢½└√-╝╝╩⌡╤╨╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 48KB
═⌡╢½└√-╝╝╩⌡╤╨╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 48KB
╦∩╜¿╬░-╚φ╝■╤╨╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 48KB
╦∩╜¿╬░-╚φ╝■╤╨╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 48KB
┤▐╜¿╬░-▓┐├┼╝╝╩⌡╫▄╝α-┴╘╞╕═°╝≥└·.html 48KB
┤▐╜¿╬░-▓┐├┼╝╝╩⌡╫▄╝α-┴╘╞╕═°╝≥└·.html 48KB
└ε═■-╧ε─┐╛¡└φ-┴╘╞╕═°╝≥└·.html 47KB
└ε═■-╧ε─┐╛¡└φ-┴╘╞╕═°╝≥└·.html 47KB
╠╒┴·├≈-╤╨╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 46KB
╠╒┴·├≈-╤╨╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 46KB
╦∩╓╛╜¡-▓·╞╖╝░╧ε─┐╛¡└φú¿┐═╗º║═╩╨│í╧α╣╪╧╡═│ú⌐-┴╘╞╕═°╝≥└·.html 46KB
╦∩╓╛╜¡-▓·╞╖╝░╧ε─┐╛¡└φú¿┐═╗º║═╩╨│í╧α╣╪╧╡═│ú⌐-┴╘╞╕═°╝≥└·.html 46KB
╓∞╖σ-▓·╞╖╛¡└φ-┴╘╞╕═°╝≥└·.html 45KB
╓∞╖σ-▓·╞╖╛¡└φ-┴╘╞╕═°╝≥└·.html 45KB
朱峰-产品经理-猎聘网简历.html 45KB
│┬─¼║¡-╔Φ╝╞╓≈╣▄-┴╘╞╕═°╝≥└·.html 45KB
│┬─¼║¡-╔Φ╝╞╓≈╣▄-┴╘╞╕═°╝≥└·.html 45KB
陈默涵-设计主管-猎聘网简历.html 45KB
╡╦╤╕-╕▀╝╢┐¬╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 45KB
╡╦╤╕-╕▀╝╢┐¬╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 45KB
┴⌡┐í╗╘-╗·╞≈╤º╧░╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 45KB
┴⌡┐í╗╘-╗·╞≈╤º╧░╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 45KB
┴⌡│ñτ∙-╝╝╩⌡╫▄╝α-┴╘╞╕═°╝≥└·.html 45KB
┴⌡│ñτ∙-╝╝╩⌡╫▄╝α-┴╘╞╕═°╝≥└·.html 45KB
╗╞╨í╗╢-ITManager-┴╘╞╕═°╝≥└·.html 44KB
╗╞╨í╗╢-ITManager-┴╘╞╕═°╝≥└·.html 44KB
╒╘╨╟-UI╔Φ╝╞╩ª-┴╘╞╕═°╝≥└·.html 44KB
╒╘╨╟-UI╔Φ╝╞╩ª-┴╘╞╕═°╝≥└·.html 44KB
赵星-UI设计师-猎聘网简历.html 44KB
║╬╙╨╤≤-╕▀╝╢╚φ╝■╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 44KB
║╬╙╨╤≤-╕▀╝╢╚φ╝■╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 44KB
╒┼╣·╖µ-╝╝╩⌡╤╨╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 43KB
╒┼╣·╖µ-╝╝╩⌡╤╨╖ó╛¡└φ-┴╘╞╕═°╝≥└·.html 43KB
╒┼╒±┼⌠-░▓╫┐╤╨╖ó╛¡└φú¼┐═╗º╢╦╝╝╩⌡▓·╞╖╛¡└φ-┴╘╞╕═°╝≥└·.html 42KB
╒┼╒±┼⌠-░▓╫┐╤╨╖ó╛¡└φú¼┐═╗º╢╦╝╝╩⌡▓·╞╖╛¡└φ-┴╘╞╕═°╝≥└·.html 42KB
╟±┬▐µ├-UI&╞╜├µ╔Φ╝╞╩ª-┴╘╞╕═°╝≥└·.html 42KB
╟±┬▐µ├-UI&╞╜├µ╔Φ╝╞╩ª-┴╘╞╕═°╝≥└·.html 42KB
邱罗婷-UI&平面设计师-猎聘网简历.html 42KB
╧─╦«┴·-.Net╚φ╝■╤╨╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 41KB
╧─╦«┴·-.Net╚φ╝■╤╨╖ó╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 41KB
╝¬╝╥═±-┤≤╟°╧·╩█╫▄╛¡└φ╓·└φ-┴╘╞╕═°╝≥└·.html 40KB
╝¬╝╥═±-┤≤╟°╧·╩█╫▄╛¡└φ╓·└φ-┴╘╞╕═°╝≥└·.html 40KB
吉家婉-大区销售总经理助理-猎聘网简历.html 40KB
┴⌡╤╟╞╜-╚φ╝■╧ε─┐╛¡└φ-┴╘╞╕═°╝≥└·.html 40KB
┴⌡╤╟╞╜-╚φ╝■╧ε─┐╛¡└φ-┴╘╞╕═°╝≥└·.html 40KB
╡╘╙┬-╕▀╝╢╚φ╝■╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 39KB
╡╘╙┬-╕▀╝╢╚φ╝■╣ñ│╠╩ª-┴╘╞╕═°╝≥└·.html 39KB
┴⌡└┌-┤≤╩²╛▌┐¬╖ó-┴╘╞╕═°╝≥└·.html 39KB
┴⌡└┌-┤≤╩²╛▌┐¬╖ó-┴╘╞╕═°╝≥└·.html 39KB
共 337 条
- 1
- 2
- 3
- 4
神仙别闹
- 粉丝: 2705
- 资源: 7631
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
- 3
前往页