没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
用于构建“概念搜索引擎”的存储库,作者 Simon Hughes(Dice 数据科学家)。该存储库包含用于在一组文档上训练 Thomas Mikolov 的 Word2Vec 模型的 Python 代码。然后可以使用同义词文件结合一些 solr 插件将这个过程的输出嵌入到 solr(或一些其他搜索引擎)中,以在搜索引擎中提供概念搜索功能。输出也可以在其他搜索引擎中使用,只要它们支持同义词文件。概念搜索也称为语义搜索,它学习匹配域中的概念而不是关键字以提高召回率。
资源推荐
资源详情
资源评论
收起资源包目录
ConceptualSearch-master.zip (37个子文件)
ConceptualSearch-master
jupyter notebooks
README.md 614B
Conceptual Search - 1. Pre-process Files.ipynb 8KB
Conceptual Search - 4.c Create Cluster Synonym Files.ipynb 60KB
Conceptual Search - 4.a Create Vector Synonym Files.ipynb 6KB
Conceptual Search - 4.b Create Top N Synonym Files.ipynb 5KB
Conceptual Search - 2. Extract Phrases.ipynb 19KB
Conceptual Search - 3. Create Word2Vec Model.ipynb 16KB
sample input files
top_5k_keywords.txt 1KB
dice_stop_words.txt 313B
.gitignore 144B
generate_cluster_synonyms_file.py 3KB
README.md 10KB
Config
config_base.py 1KB
generate_topn_synonyms_config.py 583B
pre_process_config.py 793B
train_word2vec_model_config.py 1KB
generate_cluster_synonyms_config.py 507B
__init__.py 28B
extract_keywords_config.py 836B
Utils
__init__.py 28B
string_utils.py 486B
file_utils.py 2KB
extract_keywords.py 10KB
Settings
generate_topn_synonyms.cfg 2KB
generate_cluster_synonyms.cfg 2KB
train_word2vec_model.cfg 3KB
pre_process_documents.cfg 882B
extract_keywords.cfg 1KB
sample output
3k_clusters_output.txt 4KB
keywords_and_phrases.txt 988B
top_10_title_synonyms.txt 2KB
title_vectors.txt 14KB
LICENSE.md 11KB
train_word2vec_model.py 3KB
analysis_pipeline.py 5KB
pre_process_documents.py 3KB
generate_topn_synonyms_file.py 2KB
共 37 条
- 1
资源评论
- weixin_384893152022-06-27这个不是在github上吗 可惜我的9.8
快撑死的鱼
- 粉丝: 1w+
- 资源: 9156
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功