火车订票系统java源码开放KP
自动提取对文档意义显着的关键短语是语义文档理解的重要步骤。
为了促进这一研究领域,我们创建了
OpenKeyPhrase(OpenKP),这是一个大规模的开放域关键短语提取数据集。
该数据集包含
148,124
个真实世界的
Web
文档以及指示
1-3
个最相关关键短语的人工注释。
有关数据集和我们的初始实验的更多信息可以在论文中找到,该论文将在
.
它是数据集系列的一部分,并且像这样的研究项目为使用的核心文档理解管道提供动力。
关键短语提取
Keyphrase抽取是一个语言问题,表示为:有一个文档D,其中有1-n个关键短语,可以用来理解文档是关于什么的,找到其他相关文档,并改进许多下游的NLP问题。
在
OpenKP
中,我们已经将这个问题形式化,以关注一般的
Web
域。
语料库由人工标注最相关关键短语的网站组成。
值得注意的是,在专家注释过程中,评委仅从文档中复制了相关文本,因此不需要语言生成。
语料库生成
为了生成语料库,我们从
Bing
索引中抽取了大约
100,000
个
url,以获得真正域多样性的代表性样本。
此外,我们从语料库中抽取
评论0
最新资源