没有合适的资源?快使用搜索试试~ 我知道了~
二、数据说明数据名称说明规模格式newbook所有书名,即语料15998个txtstopwordss停用词库,中文分词的常见停用词,即分词中过滤掉的词汇4000
资源详情
资源评论
资源推荐
基于 Doc2vec 的图书推荐系统
一、系统说明
功能介绍:
本系统利用 Doc2vec 来计算文本相似度,从而实现了根据岗位说明来向该岗
位用户推荐图书的功能。
首先将所有图书的书名进行分词,并作为语料训练得到模型,然后再将岗位
说明进行分词,放入训练好的模型中,便能够得到该岗位说明文本与所有图书书
名文本的相似度,最后取相似度最大的前 20 本书作为推荐结果。
模块:
get_datasest 读取所有图书书名,加载停用词表,进行结巴中文分词,将结
果保存到列表中。
train 根据分词后的数据,训练生成 Doc2Vec 模型,并保存训练好的模型。
test 加载训练好的模型,获取岗位说明,再次加载停用词表,进行结巴中文
分词,载入模型,返回推荐图书以及相似度。
二、数据说明
数据名称
说明
规模
格式
newbook
所有书名,即语料
15998 个
txt
stopwordss
停用词库,中文分词的常见
停用词,即分词中过滤掉的
词汇
4000 多个
txt
post
post 文件夹下有 293 个 txt
格式的文件,每个文件对应
一个的岗位说明
293 个 txt 文件
文件夹
result
推荐结果,每条数据由岗位
编号和推荐书目编号组成
293 条
txt
图书选择说明:从公司给的图书源数据中选出 15998 本图书,用于跟岗位进
行文本相似度匹配,其中各类别书籍如下:
书籍类别
数量
财经人物
4
产品运营
1
成功哲学
1
大学频道
1
管理学
51
互联网思维
1
金融投资
1
经济管理
15250
一曲歌长安
- 粉丝: 50
- 资源: 302
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0