#coding:utf8
from gensim.models.word2vec import Word2Vec
from gensim.models.word2vec import LineSentence
import AIKnowledgeMap.nlp.Word2Vec.getPath as getPath
def train(filepath):
sentences = LineSentence(filepath)
model = Word2Vec(sentences,size=100,window=8,min_count=10,sg=1,workers=4)
model.save(getPath.get_root()+"/model/WordEmbedding_chs_100d.vec")
for v,s in model.most_similar("三"):
print(v,s)
def loadModel(filepath):
#model = KeyedVectors().load_word2vec_format(filepath,binary=False)
model = Word2Vec.load(filepath)
return model
if __name__=="__main__":
#train("D:/wiki_space.txt")
''''''
model = loadModel(getPath.get_root()+"/model/WordEmbedding_chs_100d.vec")
for v,s in model.most_similar("3"):
print(v,s)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
维基百科数据训练的字向量,可以作为分词工具的输入,附使用代码。效果:三的上下文最相似词:四 0.9261350631713867 六 0.9203430414199829 二 0.9152765870094299 五 0.9106490612030029 八 0.8815003633499146 七 0.8814834356307983 九 0.8052943348884583 十 0.7749631404876709 百 0.6811780333518982 一 0.6762123107910156
资源推荐
资源详情
资源评论
收起资源包目录
model.rar (2个子文件)
WordEmbedding_chs_100d.vec 12.84MB
Word2Vec.py 824B
共 2 条
- 1
资源评论
- mrschen1232019-01-17好啊哈哈啊
狠人
- 粉丝: 1
- 资源: 8
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功