# WIKI_Word2vec训练及可视化
基于中文维基百科的词向量构建及可视化
主要包括三部分:数据预处理、word2vec词向量训练、可视化
第一步:
数据预处理:data_pre_process .py 实现对中文语料的预处理 ; angconv.py 和 zh_wiki.py 是将繁体中文转简体中文的文件。
第二步:
词向量训练:training.py 利用gensim工具包实现word2vec词向量
词向量相似度测试:word2vec_simiarity.py 计算两词语相似度以及找出指定词语的近义词
加载模型找出指定词的相似词并制成词云:WordCloud_visualization.py
第三步:
wiki百科数据词向量可视化:wiki_word2vec_visualization.py 利用Sklearn中TSNE进行词向量的可视化
另外:
词向量可视化测试代码:visualization_test.py
《笑傲江湖》数据预处理:笑傲江湖data_process.py
《笑傲江湖》可视化:笑傲江湖visualization.py
注:数据和训练模型太大没有上传 wiki百科数据需自己去下载 模型需自己重新训练。
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
词向量_基于中文维基百科的词向量构建+可视化.zip (21个子文件)
词向量_基于中文维基百科的词向量构建+可视化
wiki_word2vec
.DS_Store 6KB
visualizaton_test.py 2KB
zh_wiki.py 140KB
training.py 496B
langconv.py 8KB
data
P1.txt 2KB
StopWord_new.txt 17KB
P2.txt 2KB
P2_keywords.txt 1KB
P1_keywords.txt 1KB
笑傲江湖.txt 2.85MB
笑傲江湖visualization.py 1KB
keyword_extract.py 500B
WordCloud_visualization.py 1KB
笑傲江湖data_process.py 2KB
word2vec_similarity.py 735B
word2vec_sim.py 2KB
wiki_word2vec_visualization.py 2KB
data_pre_process.py 844B
readme.txt 1024B
README.md 1KB
共 21 条
- 1
资源评论
DdddJMs__135
- 粉丝: 1042
- 资源: 283
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功