## 通过计算文本余弦值来求文本相似度
使用步骤:
- 1.配置`config.py`中的缓存目录`CACHE_PATH`(默认值是'./_cache')以及文本数据目录`ARTICLE_PATH`(默认值是'./_data/article'):
``` python
# 设置缓存目录
CACHE_PATH = project_dir + os.path.sep + "_cache"
# 设置文本目录
ARTICLE_PATH = project_dir + os.path.sep + "_data/article"
```
- 2.在文本目录下填充一些待训练的英文文本数据。目前默认有26片文章,可自行增添或者删除。
- 3.运行`pipline.py`,即可开始训练数据。最终会获取到一个已经排好序的列表:
```
[('11', '12', 0.9994788059135834), ('12', '11', 0.9994788059135834),...]
```
其中每个条目都是一个元组,元组的前两个元素是两篇文章的名字,第三个元素是这两篇文章的TF-IDF值。该值越大,代表文章越相似,且最大值不可能超过1。
> 小技巧:由于计算过程中,有缓存逻辑,所以可以随时中断计算,下次继续执行时会从缓存的数据处开始继续运算。
>
> 注意:如果文章数据源有变动,或者想要重新训练,需要删除`缓存目录`。
----
## 缓存控件@cache介绍:
使用方式:
```
from utils.cache import cache
@cache(use_mem=True, use_file=True, print_log=False)
def get_data():
# 复杂耗时的计算逻辑
...
return data
```
`@cache()`会将函数的返回值缓存起来,下次执行时,如果已缓存,则跳过程序的执行,直接从缓存中取数据。
`use_mem=True`:是否使用内存缓存
`use_file=True`: 是否使用文本缓存
`print_log=True`: 是否打印过程中的日志
没有合适的资源?快使用搜索试试~ 我知道了~
Python-Python3实现的文章余弦相似度计算
共60个文件
py:19个
pyc:5个
xml:4个
需积分: 50 74 下载量 196 浏览量
2019-08-10
08:37:51
上传
评论 8
收藏 6.32MB ZIP 举报
温馨提示
Python3 实现的文章余弦相似度计算
资源推荐
资源详情
资源评论
收起资源包目录
Python-Python3实现的文章余弦相似度计算.zip (60个子文件)
article_cosine_similarity-master
pipline.py 1KB
__pycache__
config.cpython-36.pyc 429B
LICENSE 11KB
.idea
misc.xml 285B
vcs.xml 180B
ai_text_classification.iml 398B
modules.xml 296B
workspace.xml 42KB
pipline
__init__.py 0B
main
__init__.py 0B
tfidf.py 2KB
calc_vect_angle.py 371B
data_reader
article_reader.py 2KB
stopword_reader.py 517B
__init__.py 0B
segment.py 255B
word_tfidf_vect.py 1024B
gen_word_vect.py 875B
.gitignore 1KB
config.py 412B
demo
demo.py 2KB
__init__.py 0B
_data
stopwords
stop_words_eng.txt 5KB
article.zip 6.38MB
__init__.py 0B
article
13 4KB
12 2KB
14 4KB
24 3KB
15 4KB
8 2KB
21 3KB
10 3KB
1 5KB
5 2KB
7 1KB
20 3KB
9 653B
11 2KB
2 2KB
25 9KB
18 3KB
17 2KB
16 2KB
19 4KB
22 7KB
26 580B
6 2KB
3 2KB
4 643B
23 6KB
README.md 2KB
utils
utils.py 372B
__pycache__
cache.cpython-36.pyc 2KB
log.cpython-36.pyc 1KB
utils.cpython-36.pyc 599B
__init__.cpython-36.pyc 161B
__init__.py 0B
log.py 873B
cache.py 3KB
共 60 条
- 1
资源评论
普通网友
- 粉丝: 484
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功