没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考,具体如下: 学习目标: 1.利用gensim包分析文档相似度 2.使用jieba进行中文分词 3.了解TF-IDF模型 环境: Python 3.6.0 |Anaconda 4.3.1 (64-bit) 工具: jupyter notebook 注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。 首先引入分词API库jieba、文本相似度库gensim import jieba from gensim import corpora,models,similarities 以下
资源推荐
资源详情
资源评论
Python实现简单的文本相似度分析操作详解实现简单的文本相似度分析操作详解
本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考,具体如下:
学习目标:学习目标:
1.利用gensim包分析文档相似度
2.使用jieba进行中文分词
3.了解TF-IDF模型
环境:环境:
Python 3.6.0 |Anaconda 4.3.1 (64-bit)
工具:工具:
jupyter notebook
注:为了简化问题,本文没有剔除停用词注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。。实际应用中应该要剔除停用词。
首先引入分词API库jieba、文本相似度库gensim
import jieba
from gensim import corpora,models,similarities
以下doc0-doc7是几个最简单的文档,我们可以称之为目标文档,本文就是分析doc_test(测试文档)与以上8个文档的相似
度。
doc0 = “我不喜欢上海”
doc1 = “上海是一个好地方”
doc2 = “北京是一个好地方”
doc3 = “上海好吃的在哪里”
doc4 = “上海好玩的在哪里”
doc5 = “上海是好地方”
doc6 = “上海路和上海人”
doc7 = “喜欢小吃”
doc_test=”我喜欢上海的小吃”
分词分词
首先,为了简化操作,把目标文档放到一个列表all_doc中。
all_doc = [] all_doc.append(doc0)
all_doc.append(doc1)
all_doc.append(doc2)
all_doc.append(doc3)
all_doc.append(doc4)
all_doc.append(doc5)
all_doc.append(doc6)
all_doc.append(doc7)
以下对目标文档进行分词,并且保存在列表all_doc_list中
all_doc_list = [] for doc in all_doc:
doc_list = [word for word in jieba.cut(doc)] all_doc_list.append(doc_list)
把分词后形成的列表显示出来:
print(all_doc_list)
[[‘我’, ‘不’, ‘喜欢’, ‘上海’],
[‘上海’, ‘是’, ‘一个’, ‘好’, ‘地方’],
[‘北京’, ‘是’, ‘一个’, ‘好’, ‘地方’],
[‘上海’, ‘好吃’, ‘的’, ‘在’, ‘哪里’],
[‘上海’, ‘好玩’, ‘的’, ‘在’, ‘哪里’],
[‘上海’, ‘是’, ‘好’, ‘地方’],
[‘上海’, ‘路’, ‘和’, ‘上海’, ‘人’],
[‘喜欢’, ‘小吃’]]
资源评论
weixin_38583286
- 粉丝: 2
- 资源: 936
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (180014016)pycairo-1.18.2-cp35-cp35m-win32.whl.rar
- (180014046)pycairo-1.21.0-cp311-cp311-win32.whl.rar
- DS-7808-HS-HF / DS-7808-HW-E1
- (180014004)pycairo-1.20.0-cp36-cp36m-win32.whl.rar
- (178330212)基于Springboot+VUE的校园图书管理系统
- (402216)人脸识别
- enspOSPF多区域路由配置
- (175822648)java项目之电信计费系统完整代码.zip
- (175416816)毕业设计基于SpringBoot+Vue的学生综合素质评价系统源码+数据库+项目文档
- (174808034)webgis课程设计文件
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功