没有合适的资源？快使用搜索试试~ 我知道了~

文库首页人工智能深度学习维基百科数据训练的字向量，可以作为分词工具的输入

维基百科数据训练的字向量，可以作为分词工具的输入

共2个文件

py：1个

vec：1个

word2vect

深度学习

nlp

3星 · 超过75%的资源需积分: 10 19 下载量 36 浏览量 2018-07-13 18:13:55 上传评论 2 收藏 8.92MB RAR 举报

温馨提示

维基百科数据训练的字向量，可以作为分词工具的输入，附使用代码。效果：三的上下文最相似词：四 0.9261350631713867 六 0.9203430414199829 二 0.9152765870094299 五 0.9106490612030029 八 0.8815003633499146 七 0.8814834356307983 九 0.8052943348884583 十 0.7749631404876709 百 0.6811780333518982 一 0.6762123107910156

资源推荐

资源详情

资源评论

Min_NLP_Practice：使用CNN双向lstm和crf模型并带有char嵌入功能的中英文Cws Pos Ner实体识别工具。基于字向量的CNN池化双向BiLSTM与CRF模型的网络，可能的一体化完成标记，实体识别。主要包括原始文本数据，数据转换，训练脚本，预训练模型，可用于序列标注研究。注意：唯一需要实现的逻辑是将用户数据转换为序列模型。分词准确率约为93％，词性标注准确率约为90％，实体标注（在本样本上）约为85％

CwsPosNerEntityRecognition 中英文Cws Pos Ner实体识别工具，使用CNN双向lstm和crf模型，并带有char嵌入。基于字向量的CNN池化双向BiLSTM与CRF模型的网络，可能一体化的完成中文和英文分词，词性标注，实体识别。主要包括原始文本数据，数据转换，训练脚本，预训练模型，可用于序列标注研究。注意：唯一需要实现的逻辑是将用户数据转化为序列模型。分词准确率

维基百科中文语料（已分词）

4星 · 用户满意度95%

自己用来训练word2vec的，已提取文本，做了分词处理，过滤了大部分的特殊字符。共包含3273626个段落的文本（一个段落包含了多个语句）。处理后的语料有1.1G，由于文件较大，提供百度网盘下载地址。

中文维基glove词向量（已训练）-part2

维基百科离线版【需自行下载.zim数据库】

维基百科离线版一个为了方便本地浏览维基百科查询资料而制作的开源软件...通过本程序你可以自己在内网架设一个维基百科服务器，同一WiFi下的电脑和手机都可以通过输入显示的IP地址访问，从而实现离线维基百科的目的。

维基百科中文预训练数据

用于BERT预训练，Bidirectional Encoder Representation from Transformers

词向量.zip

这是keras建立对话机器人的词向量，不局限于机器人对话，也可以做其他开发使用，可以将词转化为向量。大家可以参考，开发自己的各种模型。

字向量，14000个，基本都能覆盖

来自 https://github.com/Embedding/Chinese-Word-Vectors/issues/18

crf分词标注训练语料

5星 · 资源好评率100%

用与crf分词，标注训练语料。 nlpcc2015任务一的数据

中文文本分类语料（复旦）训练集+测试集（100M）完整版

4星 · 用户满意度95%

中文文本分类语料（复旦）训练集+测试集（100M）完整版

中文自然语言处理中文分词训练语料

5星 · 资源好评率100%

本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费，转载需要注明出处，语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M，包含1116903条数据，数据用空格隔开，可以用来训练分词模型。

BERT预训练模型字向量提取工具–使用BERT编码句子

5星 · 资源好评率100%

本文将介绍两个使用BERT编码句子（从BERT中提取向量）的例子。（1）BERT预训练模型字向量提取工具本工具直接读取BERT预训练模型，从中提取样本文件中所有使用到字向量，保存成向量文件，为后续模型提供embdding。本工具直接读取预训练模型，不需要其它的依赖，同时把样本中所有出现的字符对应的字向量全部提取，后续的模型可以非常快速进行embdding github完整源码 #!/usr

中文维基glove词向量（已训练）-part1

4星 · 用户满意度95%

中文维基glove词向量（已训练）-part1，中文维基glove词向量（已训练）-part1

使用维基百科训练简体中文词向量-附件资源

使用维基百科训练简体中文词向量-附件资源

维基百科.rar 繁体转简体分词去英文

下载维基百科文档利用opencc把繁体转化为简体并去停用词去里面夹杂的英语

维基百科中文数据处理---Word2vec.ipynb

最近在做与词向量有关的工作，使用word2vec对中文维基百科数据进行处理。本人学习的一点经验，如果有什么不足之处，希望可以在下方指出。感谢！

维基百科中文语料word2vec训练后结果

4星 · 用户满意度95%

中文维基百科语料库，将其转换为文本文件后，进行繁体字转换为简体字，字符集转换，分词，然后训练得到模型以及向量。由于文件上传的大小限制是60MB，而训练后的所有文件大小有1G以上，所以这里只提供了下载链接，...

中文维基百科语料库（截止2019年2月20日）

中文维基百科hosts文件

中文维基百科hosts文件，拷贝到C:\Windows\System32\drivers\etc目录下，经测试可使用

维基百科百科问答数据集

该文件包含了维基百科的百科问答中的数据，问题和对应的答案都有，保存为Json格式，适合用于机器学习算法的训练和测试等工作。

收起资源包目录

model.rar （2个子文件）

WordEmbedding_chs_100d.vec 12.84MB

Word2Vec.py 824B

共 2 条

#coding:utf8 from gensim.models.word2vec import Word2Vec from gensim.models.word2vec import LineSentence import AIKnowledgeMap.nlp.Word2Vec.getPath as getPath def train(filepath): sentences = LineSentence(filepath) model = Word2Vec(sentences,size=100,window=8,min_count=10,sg=1,workers=4) model.save(getPath.get_root()+"/model/WordEmbedding_chs_100d.vec") for v,s in model.most_similar("三"): print(v,s) def loadModel(filepath): #model = KeyedVectors().load_word2vec_format(filepath,binary=False) model = Word2Vec.load(filepath) return model if __name__=="__main__": #train("D:/wiki_space.txt") '''''' model = loadModel(getPath.get_root()+"/model/WordEmbedding_chs_100d.vec") for v,s in model.most_similar("3"): print(v,s)

评论收藏

内容反馈

资源评论