篇章的标签⽣成是NLP领域的⼀项基础任务,⽬的是对⽂本更好地结构化,筛选重
要的关键词,概括⽂本的中⼼语义。因此,我们探索了⼀套标签⽣成流程,其中除
了应⽤了已有的信息抽取技术之外,还将医疗知识图谱结构,实体显著性判
断,concept抽取融⼊模型,实现业务增⻓。
关于标签⽣成,优化的⽅法⼤致有两种思路,第⼀种是在拥有⼀个较为完备的知识
图谱后,如何使⽤知识图谱去指导标签抽取过程保持语义上的⼀致。举个栗⼦,⽐
如通过词分布的分析,某篇⽂章的主题被定为在“妇科”相关疾病上,那么“⻣科”的
实体词就会被避免作为标签被抽出。这种思路在业界多以LDA的⽆监督打标签算法为
主,利⽤知识表⽰向量、知识图谱结构或者其他统计信息对LDA模型进⾏改进,输出
的结果为原⽂出现过的实体词,以下我们将它称之为 主题语义连贯的词分布标签⽅
法 ;
另⼀种思路是在知识图谱上做⽂章,⽐如专业的医学知识图谱上的实体词够精确,
但有时由于词本⾝的含义不够泛化,并不适⽤于⽂章的表⽰,举个栗⼦,⽐
如“HP”、“胃镜”、“三联疗法” 这⼏个词的确贴合消化内科的主题,但是它没有“幽
⻔螺杆菌的治疗⽅法”这样更加泛化的标签词来的直观,后者包含了更多的信息量,
且更具可解释性。这⽅向需要结合更多的NLP技术,包括在业务场景中挖掘优质的
concept短语,构建concept短语与实体词的taxonomy,利⽤⽂本⼦图中⼼度测量、
随机游⾛路径、词频共现等做encoding,以LDA作为抽取器完成标签⼯作,以下我
们将它为 Concept挖掘的标签⽅法 。
对这两种思路,我们调研了已有的相关研究,利⽤医疗知识图谱和医学垂直领域业
务数据做了标签⽣成的尝试。
主题语义连贯的词分布主题模型
《Incorporating Knowledge Graph Embeddings into Topic Modeling》
概率主题模型可⽤于从⽂档集合中提取低维主题。然⽽,以往的模型往往产⽣⽆法
解释的主题。近年来,已有许多基于知识的主题模型被提出,但它们不能很好的处
理知识图中的三元组,⼤部分以must-link形式,或直接利⽤图谱中的上层概念,⽆法
在向量空间中量化。本⽂将知识表⽰嵌⼊到到LDA中,将潜在的Dirichlet分配(⼀种
⼴泛使⽤的主题模型)与实体向量编码的知识相结合,来提⾼了主题语义的⼀致性
和连贯性。本⽂主要在两个以往研究(CI-LDA和Corr-LDA)上做了改进,上图为
linkKGLDA,下图为corrKGLDA: