关系抽取
关系抽取(Relation Extraction)是信息抽取(Information Extraction)的重要子任务之一,在知识库构建与补全的关键步骤之一。关系抽取的目的是从文本中抽取实体对之间的语义关系,可以预先给定或者基于NRE获得。
关系抽取的任务分类可以根据关系集合是否预选给定,将关系抽取分为两类:关系分类和开放关系抽取。关系分类是将关系抽取转化为对候选实体对的分类问题,而开放关系抽取是直接从文本中抽取出结构化文本关系。
关系抽取的方法分类包括基于Rule的关系抽取、基于有监督的关系抽取、基于Bootstrapping的关系抽取和基于远程监督的关系抽取等。其中,基于Rule的关系抽取是通过手工编写规则匹配文本,实现关系抽取;基于有监督的关系抽取是使用标注数据来训练模型,实现关系抽取。
关系抽取的挑战包括实体对的关系通常在文本中隐式表达、实体对的关系在文本中存在多样化的表达、对于学习模型,高质量的训练样本极少、人工标注成本高等。
常用的数据集包括人工构造数据集、ACE 2005数据集、SemEval-2010 Task 8数据集、基于远程监督构造的数据集等。评估方法包括自动评估和人工评估,度量标准包括精确率、准确率、召回率和F1值等。
在关系抽取中,评估对象是模型对测试实体对的预测关系集合,假定测试集中的关系实例数量为N,模型预测的关系实例数量为E,模型预测的正确的关系实例数量为C。度量指标包括Recall、Precision、F-Measure等,Precision-Recall曲线也是一种常用的评估方法。
关系抽取是信息抽取的重要子任务之一,对于知识库构建与补全具有重要意义。关系抽取的方法分类、挑战、常用数据集和评估方法等都是关系抽取研究的重要方面。