中文词汇分类百度百科词向量


-
中文词汇分类百度百科词向量
336.38MB
维基百科中文词向量.zip
2020-11-26维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训练向量,并将它们用于下游任务。
8KB
中文词汇分类知乎的词向量结果
2021-03-05课题实验
41.23MB
glove中文词向量
2019-09-28使用glove预训练词向量(1.6GB维基百科语料),维度为300,词汇量约13000,文件大小为41.2MB
56.92MB
GWE中文词向量
2033-10-11使用GWE(中文字形特征提取)预训练词向量(1.6GB维基百科语料),维度为300,词汇量约13000,文件大小为41.2MB
11KB
GoogleNews 训练好的词向量文件,每个词向量300维度,很好用
2019-03-26训练好的词向量文件,很好用,也很丰富,基本的词汇里面都有,每个词向量300维度,给的百度云下载链接,压缩后1.5个G
75B
中文词向量表下载.txt
2020-05-04中文词向量表,包含全部中文的词汇+对应词向量。 使用word2vec训练后,输出中文的全部词向量,存在txt中。 格式为 “词汇 向量”。 资源为百度云链接地址,文件大小为3.44G。
194.5MB
斯坦福glove预训练的词向量
2020-11-26预先训练的单词向量。 维基百科2014 + Gigaword 5(6B令牌,400K词汇,无章,50d,100d,200d和300d载体):glove.6B.zip
1013KB
论文研究-融合词向量特征的双词主题模型.pdf
2019-07-22针对短文本中固有的文本内容稀疏和上下文信息匮乏等问题,在双词主题模型(BTM)的基础上提出一种融合词向量特征的双词主题模型LF-BTM。该模型引入潜在特征模型以利用丰富的词向量信息弥补内容稀疏,在改进的生成过程中每个双词的词汇的生成受到主题—词汇多项分布和潜在特征模型的共同影响。模型中的参数通过吉布斯采样算法进行估计。在真实的短文本数据集上的实验结果表明,该模型能结合外部通用的大规模语料库上已训练好的词向量挖掘出语义一致性显著提升的主题。
9.73MB
百度百科爬虫Scrapy
2014-03-06爬虫,爬去百科数据示例。包含已爬去的json格式数据做参考。爬取的是计算机类所有相关词汇。
1.54MB
论文研究-word2vec-ACV:OOV语境含义的词向量生成模型.pdf
2019-07-22针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。
16KB
探索词向量世界
2018-06-30国王-男人=皇后-女人?使用 PyTorch 探索语义世界! 首先让我们看下题目中的公式“国王-男人=皇后-女人”,你是不是觉着这个公式成立并且特别有道理,但是又说不出来为什么?或者你会说,这个公式成立是因为等式两边词汇的语义是相似的。哎,对!就是语义相似,只不过不仅我们人类可以发现语义的相似性,机器同样也可以。那机器是通过什么方法来理解语义的?它又是怎样得出上面的计算公式的?答案就在我们今天的文章中。
26.40MB
基于支持向量机的图片分类程序
2018-01-25对图片的分类主要包含以下四个步骤:1.用尺度不变特征转换(SIFT)算法来提取训练集中图片的特征值。2.用K-means算法将这些特征值聚成n类。这n类中的每一类就相当于是图片的单词,所有的n个类别构成词汇表。3.对训练集中的图片构造词汇表,就是将图片中的特征值归到不同的类中,然后统计每一类的特征值的频率。4. 用支持向量机(SVM)训练一个多类分类器,将每张图片的词汇表作为特征向量。对于未知类别的图片,计算它的词汇表,使用训练的SVM分类器进行分类。
3KB
日语词汇分类表(新日汉大词典)
2009-01-05本人照着新日汉大词典里的日语词汇分类表做的word文件,想学日语语法的朋友可以下载下来以做记忆,页面设置为32开,可以打印后夹在书里。
1.2MB
论文研究-基于词向量与TextRank的关键词提取方法.pdf
2019-07-22针对词汇语义的差异性对TextRank算法的影响进行了研究,提出一种基于词向量与TextRank的关键词抽取方法。利用FastText将文档集进行词向量表征,基于隐含主题分布思想和利用词汇间语义性的差异,构建TextRank的转移概率矩阵,最后进行词图的迭代计算和关键词抽取。实验结果表明,该方法的抽取效果相比于传统方法有明显提升,同时证明利用词向量能简单而有效地改善TextRank算法的性能。
2.12MB
销售管理系统的研究
2014-12-18销售管理系统的研究
20.76MB
366万常用的中文词汇整理
1969-12-12作者:刘邵博 此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频。 词频是用ansj分词对270G新闻语料进行分词统计词频获得。 部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。
3.9MB
GRE分类词汇,各类分类词汇
2009-06-04GRE分类词汇(刘畅),新东方,很好的词汇总结
-
下载
Vue案例进阶.pdf
Vue案例进阶.pdf
-
下载
新疆巴音郭楞蒙古自治州第二中学2021届高三第一学期第二次摸底考试历史试卷 Word版含答案.doc
新疆巴音郭楞蒙古自治州第二中学2021届高三第一学期第二次摸底考试历史试卷 Word版含答案.doc
-
下载
2021在线客服系统修复版 PHP客服系统3.6全开源无限制版怕【带文字搭建教程】
2021在线客服系统修复版 PHP客服系统3.6全开源无限制版怕【带文字搭建教程】
-
下载
四川省仁寿一中北校区等四校2020-2021学年高一下学期第一次月考政治试题 Word版含答案.docx
四川省仁寿一中北校区等四校2020-2021学年高一下学期第一次月考政治试题 Word版含答案.docx
-
下载
java开发的完整微信公众号平台.rar
java开发的完整微信公众号平台.rar
-
下载
当你拼命工作却越来越穷时,一定要看看这个短片,讽刺所有普通人-今日头条.mp4
当你拼命工作却越来越穷时,一定要看看这个短片,讽刺所有普通人-今日头条.mp4
-
下载
vue基础教程1.pdf
vue基础教程1.pdf
-
下载
windows下C++开发环境MinGW 8.1.0
windows下C++开发环境MinGW 8.1.0
-
下载
植物大战僵尸素材包(1).zip
植物大战僵尸素材包(1).zip
-
下载
辽宁省阜新市第二高级中学2020-2021学年高二下学期第一次月考英语试卷 Word版含答案.doc
辽宁省阜新市第二高级中学2020-2021学年高二下学期第一次月考英语试卷 Word版含答案.doc
