# import gensim # from gensim.models import KeyedVectors # model = KeyedVectors.load_word2vec_format( \ # os.path.join(300,'wordmodel','sgns.baidubaike.bigram-char'),binary = False, encoding = "utf-8", unicode_errors = "ignore") import numpy as np import os vocab_to_index = {"我":0,"开心":1,"快乐":2} size_vocab = len(vocab_to_index)#字典大小 embeddings = np.zeros((size_vocab, 300))#初始化数组为零，300维 found=0#匹配到的词向量个数 with open(r'sgns.baidubaike.bigram-char','r',encoding='utf-8') as f:#读取预训练词向量文件 for line_idx, line in enumerate(f):#遍历索引和值，值格式为：词，词向量 line = line.strip().split()#值 if len(line) != 300 + 1:#保证每个词向量为300维 continue word = line[0]#词 embedding = line[1:]#词向量 if word in vocab_to_index: found=found+1#加一 word_idx = vocab_to_index[word]#找到对应索引 embeddings[word_idx] = embedding#该索引位置对应词向量 print("单词",word) print("单词",embeddings[word_idx]) print('获取到的词向量：'+str(found)+'所有的词：'+str(size_vocab)+'匹配率：{:.2f}%'.format(found/size_vocab*100)) # 保存提取到的词向量数组 np.savez_compressed(r'vec.npz', embeddings=embeddings)

评论收藏

内容反馈

资源评论