词向量-基于中文维基百科的词向量构建+可视化.zip资源-CSDN文库

共21个文件

py：12个

txt：7个

md：1个

中文维基百科

需积分: 1 90 浏览量 2024-04-28 09:19:49 上传评论收藏 1.29MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

词向量_基于中文维基百科的词向量构建+可视化.zip （21个子文件）

folder

词向量_基于中文维基百科的词向量构建+可视化

folder

wiki_word2vec

.DS_Store 6KB

visualizaton_test.py 2KB

zh_wiki.py 140KB

training.py 496B

langconv.py 8KB

folder

data

P1.txt 2KB

StopWord_new.txt 17KB

P2.txt 2KB

P2_keywords.txt 1KB

P1_keywords.txt 1KB

笑傲江湖.txt 2.85MB

笑傲江湖visualization.py 1KB

keyword_extract.py 500B

WordCloud_visualization.py 1KB

笑傲江湖data_process.py 2KB

word2vec_similarity.py 735B

word2vec_sim.py 2KB

wiki_word2vec_visualization.py 2KB

data_pre_process.py 844B

readme.txt 1024B

README.md 1KB

# WIKI_Word2vec训练及可视化基于中文维基百科的词向量构建及可视化主要包括三部分：数据预处理、word2vec词向量训练、可视化第一步：数据预处理：data_pre_process .py 实现对中文语料的预处理 ; angconv.py 和 zh_wiki.py 是将繁体中文转简体中文的文件。第二步：词向量训练：training.py 利用gensim工具包实现word2vec词向量词向量相似度测试：word2vec_simiarity.py 计算两词语相似度以及找出指定词语的近义词加载模型找出指定词的相似词并制成词云：WordCloud_visualization.py 第三步： wiki百科数据词向量可视化：wiki_word2vec_visualization.py 利用Sklearn中TSNE进行词向量的可视化另外：词向量可视化测试代码：visualization_test.py 《笑傲江湖》数据预处理：笑傲江湖data_process.py 《笑傲江湖》可视化：笑傲江湖visualization.py 注：数据和训练模型太大没有上传 wiki百科数据需自己去下载模型需自己重新训练。

内容反馈

DdddJMs__135

粉丝: 1042
资源: 283

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip