中文短文本的实体链指研究
徐国进
电子科技大学,成都,610031, 中国
xgj_012@163.com
摘要
. 面向中文短文本的实体识别与链指,简称ERL(Entity Recognition
and Linking),是NLP领域的基础任务之一,即对于给定的一个中文短文
本识别出其中的实体,并与给定知识库中的对应实体进行关联。传统的实
体链指任务主要是针对长文档,长文档拥有在写的上下文信息能辅助实体
的歧义消解并完成链指。相比之下,针对中文短文本的实体链指存在很大
的挑战。针对该问题,本文给出了解决了该任务即实体识别和实体链指两
个子任务的方法。对于实体识别这一子任务,本文采用BERT-BiLSTM-
Dense的半指针半标注的结构,这一结构通过灵活的解码来提升实体识别
的性能。对于实体链指这一子任务,根据实体描述文本长度对候选实体进
行有效的筛选获得一个小的候选集,然后将实体消歧转为化在这个小的候
选集上的多分类的问题。在CCKS 2019 中文短文本的实体链指这个评测任
务上,该文提出的方法在最终的评测数据上达到F1为0.79654的成绩。
关键词
: 实体链接,实体识别,实体消歧,BERT,多分类
Research on Entity Chain Reference of Chinese Short
Texts
XU Guojin
University of Electronic Science and Technology,Chengdu 610031, China
xgj_012@163.com
Abstract. Entity Recognition and Linking (ERL) is one of the basic tasks in
NLP field. It is to recognize the entities in a given short Chinese text and asso-
ciate them with the corresponding entities in a given knowledge base. Tradi-
tional entity chain refers to the task mainly for long documents, long documents
have context information in writing, which can assist entity disambiguation and
complete the chain finger. In contrast, the entity chain finger for short Chinese
texts is a big challenge. To solve this problem, this paper presents a method to
solve the task, that is, entity recognition and entity chain referring to two sub-
tasks. For the sub-task of entity recognition, this paper adopts the structure of
BERT-BiLSTM-Dense semi-pointer and semi-annotation, which improves the
评论0