没有合适的资源?快使用搜索试试~ 我知道了~
谷歌师兄的leetcode刷题笔记-nlp:无印良品
共23个文件
png:14个
py:7个
txt:1个
需积分: 9 0 下载量 12 浏览量
2021-06-30
08:09:26
上传
评论
收藏 835KB ZIP 举报
温馨提示
谷歌师兄的leetcode刷题笔记目录 存储库 该存储库的目的是分析 BERT 和 Word2Vec 语言模型。 我们利用余弦相似度、欧几里得距离以及词移动距离 (WMD) 作为度量来量化句子和单词之间的相似度。 我们还展示了 BERT 上下文嵌入的一些应用。 获取两个文档,可能包含许多句子,对它们进行预处理,为每个标记找到相应的词向量(使用 Word2Vec 嵌入),计算两个文档中存在的所有标记之间的(欧几里德)距离,以及每个唯一单词的频率在每个文件中。 最后,它计算两个文档之间的 WMD。 您还可以选择绘制诸如最佳传输矩阵之类的图。 大多数图都依赖于 bmd.py,它是 WMD 到 BERT 嵌入的实现,可应要求提供,包含TensorFlow 2.0 _ Keras _ google-research/bert ,支持加载原始pre-trained weights . 先决条件 项目是使用 Python 3.6 和 Google Cloud/Colab 创建的。 用于 Word2Vec 嵌入。 要运行此项目,请安装以下内容: $!pip install stop-words $!p
资源推荐
资源详情
资源评论
收起资源包目录
nlp-master.zip (23个子文件)
nlp-master
readme_movie_refdoc.txt 1KB
github_plots
bmd_imshow2.png 22KB
context Bert.png 41KB
bmd_context_pca.png 46KB
human_rate_euc.png 175KB
Sent_histogram.png 131KB
bmd_imshow1.png 65KB
non_context Bert.png 48KB
movieplotS.png 50KB
wmd_imshow.png 34KB
bmd_nocontext_pca.png 55KB
non_context w2v.png 41KB
movieplotP.png 49KB
wmd_pca.png 41KB
wmd_imshow1.png 65KB
movie_plot.py 6KB
wmd_plot.py 11KB
get_human_rate_bert_w2v_cos_euc_data.py 8KB
PCA_plots_withcontext_bert_w2v.py 5KB
PCA_plots_nocontext_bert_w2v.py 6KB
README.md 6KB
sentence_examples_file.py 4KB
plot_human_rate_euc.py 3KB
共 23 条
- 1
资源评论
weixin_38656364
- 粉丝: 8
- 资源: 898
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功