用python实现TF-IDF算法
包括将txt文件的每个字录入并计算出现次数和计算权重的函数,语料库是大约十万字的66篇论文,tfidf.py中是对文章向量化处理和计算夹角的函数,可以用于文章的分类和论文的查重,由于语料库很少,所以可能结果精度不高。
0
533
7.31MB
2022-10-22
48