【免费】关于word2vec，我有话要说1资源-CSDN文库

需积分: 0 17 浏览量 2022-08-03 21:04:40 上传评论收藏 531KB PDF 举报

资源详情

资源评论

资源推荐

写在前󰴯的话：

总结下使󰉁word2vec来的些经验，因为󰙵在做的时候，很难在󰕲上搜到word2vec的经验介

绍，所以归纳出来，希望对读者有󰉁。

这󰮟介绍word2vec的原󰇹，因为原󰇹介绍的资󰕲上很多：

作者论 word2vec论坛

作者论讲的较简单，推荐个较全󰴯的word2vec原󰇹分析

最后，由于本知识有限，错误之处，还望指正。

1 word2vec 是word embedding 最好的具吗？

word2vec并󰴬是效果最好的word embedding 具。最容看出的就是word2vec没有考虑语序，这󰮟

会有训练效果损失。

由于 word2vec 训练速度快，󰉁，google出品等，使得word2vec使󰉁的多。

训练快是因为 word2vec只有输层和输出层，砍去神经󰕲络中，隐藏层的耗时计算（所以word2vec

并算是个深度学习算法）。另外，阅读word2vec的google的源码，会发现󰮟󰴯有些提速的

trick。如 sigmod函数，采󰉁次计算，以后查表，减去󰮢的重复计算。如词典hash存储，层次

softmax等。

󰉁是因为word2vec 公布word2vec的代码。在tensorﬂow,gensim,spark mllib包中都有集成，使󰉁

。

2 word2vec 训练结果的差异主要来󰙵么因素？

2.1 语影响最

语的场景，如微博的语和新闻语训练的结果差别很。因为微博属于个发帖，较随意。󰖳

新闻较官正式，另外新闻式相对复杂。经过训练对：微博这种短，训练的相似词多是同级

别的相关词。如深圳相关的是 州。󰖳󰉁新闻语，训练得到深圳相关的词 多是与深圳有关联

的词，如深圳学。

实际发现在微博，违法󰚬情的词训练的较好，因为󰺴产󰉁这种聚到来推。󰖳在评论，骂的词训练

的较好，在新闻，则是常󰤁的正规的词训练的较好。

剩余10页未读，继续阅读

评论0

内容反馈

有只风车子

粉丝: 29
资源: 329

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip