没有合适的资源?快使用搜索试试~ 我知道了~
wsdm_cup_2020_solution:WSDM CUP 2020的第一名解决方案,pair-bert,lightgbm
共32个文件
py:17个
java:6个
md:4个
需积分: 10 1 下载量 25 浏览量
2021-03-21
11:53:52
上传
评论
收藏 80KB ZIP 举报
温馨提示
wsdm_cup_2020_solution 队名:ferryman 团队成员:星矢,Eclipse,意志,渡船 1.概述 该存储库包含我们的“解决方案,这是任务之一。 比赛提供了一个庞大的论文数据集,其中包含大约80万篇论文,以及描述研究论文的段落或句子。这些描述主要来自介绍引文的论文。要求参与者认识描述文本中引用的论文。 在分析了挑战之后,我们将其视为信息检索(IR)任务。IR着重于通过查询来自大量候选文档的查询来找到最匹配的Top N文档的问题。在这个挑战中,描述文本是查询,而候选论文是要检索的文档。为了应对这一挑战,我们制定了一个包括两个阶段的计划,包括召回和排名。在召回阶段,建立了几种无监督的方法来缩小候选人的范围,然后我们通过学习对模型进行排序来对在召回阶段选择的候选人论文进行排名。 2.撤离 召回结果不仅用于减少等级模型的检索范围,而且还作为LGB等级阶段使用的功能的一部
资源推荐
资源详情
资源评论
收起资源包目录
wsdm_cup_2020_solution-master.zip (32个子文件)
wsdm_cup_2020_solution-master
preprocess
util.py 10KB
step1:prepare_data.py 3KB
step2:prepare_recall.py 2KB
ensemble
lgb_bert_rank_blend.py 1KB
README.md 0B
final_dir
readme.md 10B
.idea
markdown-navigator.xml 4KB
vcs.xml 180B
README.md 9KB
rank
util.py 10KB
step3:make_feature.py 6KB
get_features.py 43KB
lgb_model.py 8KB
nn_bert_pointwise.py 9KB
pairwise_bert
tokenization.py 10KB
utils.py 2KB
tokenization_test.py 4KB
__init__.py 226B
optimization.py 6KB
run_ranker_train.py 34KB
modeling2.py 40KB
data
readme.md 10B
recall
conf
conf.properties 886B
log4j.properties 1KB
src
test
java
Test.java 4KB
main
java
analyzer
NgramAnalyzer.java 5KB
wm
LuceneIndex.java 15KB
Utils.java 2KB
Data.java 2KB
ConfUtil.java 684B
recall_and_generate_features.py 12KB
pom.xml 5KB
共 32 条
- 1
资源评论
不爱说话的我
- 粉丝: 17
- 资源: 4616
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android面试题.txt
- chujuyingshi1129802.apk
- 865804808983585自动化办公必备numpy、pandas数据处理课件.zip
- Fences 5是一款桌面整理软件,主要用于Windows操作系统,能够帮助用户更有效地管理和组织桌面上的图标和文件
- Appium入门 appium-desktop安装包,下载即可安装使用
- 初步图优化之后的fb bev 结构图
- 爬取cnnvd网站代码最新的 2024年
- 资源专区-毕业设计-数据分析-CRM客户关系管理系统
- 毕业设计-使用Matlab基于遗传算法+非线性规划实现的函数寻优算法-附项目源码.zip
- api接口python.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功