爬取一定时间内的前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/)

所需积分/C币:50 2019-09-12 09:50:52 5KB PY
191
收藏 收藏
举报

三、 项目思路 1. 爬取一定时间内的(如最近1个月的)前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/),部分数据可以直接在搜索结果中获取,部分数据需要进入到岗位页面中获取。 2. 将爬取的数据保存为本地文本文件(若学生掌握数据库相关知识则可以保存在数据库中)。 3. 基于爬取的数据可以形成多种数据分析结果,例如:行业薪资、地区薪资、地区与行业分布关系、行业学历需求情况等。 4. “职位信息”字段可使用jieba分词库进行分词,基于分词结果可生成“词云”等成果物。 5. 基于分词结果使用gensim模块训练词向量(涉及大量数据清洗工作)。 6. 基于每个“职位信息”文本的词向量构建基于“职位信息”的职位特征(建议使用均值即可)。 7. 将数据划分为训练集和测试集。使用训练集,基于scikit-learn中的朴素贝叶斯接口训练文本分类模型(建议使用多项式贝叶斯模型),使用测试集测试分类结果准确程度。

...展开详情
立即下载 身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
上传资源赚钱or赚积分
最新推荐
爬取一定时间内的前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/) 50积分/C币 立即下载
1/0