### 数据采集和统计(结构化和非结构化的分析)
##### 数据采集时间截止到2018年12月28日,数据条数为15万条,平台为智联和51_job,算是给要找工作的自己一个方向
#### 结构化分析:对采集的数据进行全国性的统计
![cl](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/analysis_result/cl.png)
![cl](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/analysis_result/dc.png)
![cl](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/analysis_result/edu.png)
![cl](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/analysis_result/exp.png)
![cl](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/analysis_result/LDA4.png)
![cl](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/analysis_result/money.png)
![cl](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/analysis_result/salary.png)
![cl](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/analysis_result/type.png)
### 非结构化分析:对科技类人才招聘需求挖掘
###
>#### 主题挖掘作用:用于主题发现与热点分析,主题挖掘任务的本质是将输入的文本流划分到不同的主题类中,并且在必要时候建立新的主题类。
#### 招聘主题挖掘技术能从复杂的数据中识别出招聘单位的需求,通过词权的方式对文本关键字进行提取,并利用主题模型对主题进行聚类,以达到提炼需求的目的。本文对招聘主题挖掘进行了问题描述和任务框架梳理,通过智联招聘信息采集、文本预处理、主题挖掘算法和主题建模四个方面进行主题挖掘。
###
### 处理框架为
![框架](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/pic/处理路线.png)
### 相似度计算结果为
![相似度计算](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/pic/相似度效果.png)
### 基于词频的LDA主题聚类为
![聚类3](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/pic/LDA-3.png)
![聚类4](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/pic/LDA4.png)
### 基于词权的LDA主题聚类为
![聚类3](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/pic/tf-idf-lda3.png)
![聚类4](https://github.com/CarryChang/zhilian-51job-analysis/blob/master/pic/TF-IDF+LDA4.png)
结论:基于词频的可视化LDA的方法得出来的主题关键字无法反应低频信息,造成词频关键信息缺失,而使用TF-IDF的方法进行向量化之后,既考虑频次又考虑权重,能反应低频关键信息,弥补了频次带来的的误差。
没有合适的资源?快使用搜索试试~ 我知道了~
Python-智联51job招聘需求挖掘采集和分析
共107个文件
png:53个
py:23个
html:13个
需积分: 26 23 下载量 134 浏览量
2019-08-10
07:40:04
上传
评论 1
收藏 45.42MB ZIP 举报
温馨提示
智联_51job招聘需求挖掘采集和分析,数据采集时间截止到2018年12月28日,数据条数为15万条,平台为智联和51_job,算是给要找工作的自己一个方向,具体的流程可以参考右边的PPT
资源推荐
资源详情
资源评论
收起资源包目录
Python-智联51job招聘需求挖掘采集和分析 (107个子文件)
data.csv 956B
.gitignore 1KB
index.html 2.28MB
基于词频-隐含狄利克雷分布的招聘主题挖掘.slides.html 2.06MB
company_location.html 761KB
company_city.html 698KB
company_walfare.html 698KB
company_all_data_CL.html 698KB
company_salary.html 697KB
company_all_data_DB.html 697KB
company_DB.html 697KB
company_job_type.html 696KB
company_type.html 696KB
company_workingexp.html 695KB
company_edu.html 695KB
Text-Rank+TF-IDF.ipynb 11KB
LICENSE 11KB
README.md 3KB
论坛主题挖掘研究综述_陈迪.pdf 1.81MB
kmeans.png 288KB
kmeans-result.png 248KB
kmeans原理.png 196KB
智联招聘数据库样式.png 195KB
LDA实例.png 132KB
智联.png 124KB
salary.png 117KB
LDA.png 104KB
dc.png 91KB
tf-Idf -K-means.png 84KB
任职要求.png 83KB
money.png 78KB
主题挖掘.png 78KB
主题挖掘.png 78KB
职位要求.png 68KB
type.png 65KB
LDA8.png 58KB
LDA7.png 56KB
LDA6.png 55KB
LDA-5.png 54KB
LDA4.png 52KB
LDA4.png 52KB
TF-IDF+LDA4.png 51KB
tf-idf-lda3.png 50KB
TF-IDF+LDA.png 49KB
LDA-3.png 49KB
TF-DF原理.png 48KB
TF-IDF+LDA5.png 46KB
判断k值.png 45KB
exp.png 43KB
LDA三层贝叶斯模型.png 43KB
edu.png 38KB
all.png 34KB
主题提取趋势.png 33KB
算法.png 33KB
硬件.png 32KB
软件.png 32KB
程序.png 32KB
词权和词频.png 30KB
cl.png 30KB
相似度效果.png 30KB
kmeans_para.png 29KB
word2vec相似度聚类.png 28KB
基于统计的关键字提取.png 27KB
加入成功.png 25KB
TF-IDF词向量化模型.png 23KB
搜狗词典扩充.png 22KB
TF_1000.png 22KB
处理路线.png 21KB
数据量.png 21KB
处理框架.png 19KB
词袋模型.png 15KB
用户字典.png 13KB
get_tag.py 4KB
get_tag.py 4KB
数据清洗.py 3KB
single_page_header.py 3KB
list_headers.py 3KB
list_headers.py 3KB
最新封装存入csv.py 3KB
single_page_header.py 3KB
循环地址.py 2KB
get_page_list.py 1KB
get_all_json.py 993B
get_all_json.py 993B
read_json.py 826B
get_page_responsibility.py 779B
get_require_list.py 761B
get_location.py 671B
get_require.py 583B
get_responsibility.py 532B
get_list.py 281B
读取csv.py 208B
使用re匹配数字.py 147B
提取列表.py 138B
练习format.py 76B
job_list_hlw.txt 2.74MB
job_list.txt 2.72MB
software.txt 1.6MB
algorithm.txt 1.03MB
hardware.txt 868KB
共 107 条
- 1
- 2
资源评论
weixin_39840924
- 粉丝: 492
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功