一种准确而高效的领域知识图谱构建方法

所需积分/C币:43 2019-02-27 19:05:27 2.33MB PDF

作为语义网的数据支撑,知识图谱在知识问答、语义搜索等领域起着至关重要的作用,一直以来也是研究领域和工程领域的一个热点问题,但是,构建一个质量较高、规模较大的知识图谱往往需要花费巨大的人力和时间成本.如何平衡准确率和效率、快速地构建出一个高质量的领域知识图谱,是知识工程领域的一个重要挑战.对领域知识图谱构建方法进行了系统研究,提出了一种准确、高效的领域知识图谱构建方法——“四步法”,将该方法应用到中国基础教育九门学科知识图谱的构建中,在较短时间内构建出了准确率较高的学科知识图谱,证明了该方法构建领域知识图谱的有效性.以地理学科知识图谱为例,使用“四步法”共得到67 万个实例、1 421 万条三元
杨玉基竽一种准确而高效的领域知识图谱构建方法 提出了一种准确、高效地构建领域知识图谱的方法—一四步法并用四步法构建岀∫一个面向基 砷教育的高质量的地理学科知识图谱验证了四步法的有效性 构建的面向基础教育的高质量的地理学科知识图谱为基于地坦学科知识图谱的应用系统知识问答 与高考答题提供语义数据攴撑 ·研宄实现的众包半自动语义标工具可以在标注三元组的时候很好地兼顾质量和效率同时可以用 于完善本体结构 本文第节是相关领域的研宄综述第节是地理学科知识图谱构建详细地介绍用四步法构建地理学科 知识图谱的整个过程第节是实验介绍众包半自动语义标注、实体集扩充和关系抽取的相关实验和效果以 及地理学科知识图谱的数量统计信息第节是结论 相关研究综述 本节对知识图谱构媓过稈中的主要挑战进行介绍包括本体构建、语义标汴和信息抽取这个部分 本体构建 将本体定义为一种概念化的精确的规格说明 年 进一步扩充了本体的概 念将其定义为共享概念模型的明确豗式化规范说明筲而言之本体主婁是用来摧述某个领域内的概念和概 念之间的关系使得它们在共亨的范围内具有大家共同认可的、明确的、唯一的定义所以本体具有共享化、 明确化、概念化和形式化这个基本特征 本体构寔的过稈相当繁琐而且构建过稈往往因各自领域和具体工稈的不同而有所不同但是大家公认 的是在领域本体的构建过稈十需要相关领域专家的协作与指导ˉ一般而言本体构建通常有人工、自动和 半自动这种构建方法 人工构建本体的方法通常是由大量的领域专家相互协作完成例如 常见的人工构建本体 的方法主要有法又称骨槊法 法 法 法 法又称七步法等 自动杓建本体通常也称为本体学习其日标在于利用知识获取技术、机器学习技术以及统计技术等从 数捱资源中自动地获取夲休知识从而降低木休构建的成木杜小勇根据薮据源旳结构化程度结构 化、半结构化、非结构化以及木休学习对象的层次概念、关系、公理将木休学习问题划分为类 子问题并详细分析了这类子问题的研究进展在此之上还进一步介绍和比较了现有的木体学习工 具在自动构建本体方面目前还极少有方法能够得到覆盖率和准确率都表现良好的本体 半自动构建本体介于人工构建本体和自动构建本体之间对于大多数领域而言完全自动化地构建本 体是难以实现的所以在自动构建本体的过程中通常还需要布用户的指导下进行 本文采用的是半自动构建本体的方法使用统计方法和无监督方法得到本体知识结合其他知识图谱的本 体知识在专家的指导下构建出了本体并在众包半自动语义标注过程中进行了完善 语义标注 语义标注是拦对原始数据倣枟记使其包含一定的语乂信息这样不仅人可以珵解而且机器也能够理解 语义标注的研究主要包括利用本体技术和自然语言处理等技术来进行语义标注的算法研究和应用饼 究 根据语义标注结果的存储方式语义标注可以分为两类嵌入式存储和独立存储嵌入式存储方式是指将 标注结果嵌入在原始网页巾标汴格式可以是 等例如 的结构化数据 标记辅助工具独立存储方式是指将标注结果保存在外部存储屮可以保存到文件屮也可以保存到数据库 中例如开源语义标注工具 它可以对任何网页进行标注标注结果将保存在标注系统后端的数据 库中 中国科学院软件研究所htp:;ww.jos.org.cn 软件学报 根据语义标注的自动化程度语义标注可以分为类手工标注、半自动标注和自动标注手工标注是指 标注人员直接将语义数据写入到标注文档中最典型的是 即 的语义版本它的实现方式是 冇编辑页面时插入一些语乂数据使得系统能够解析这些语义数据从而提供更加便捷的浏览和更加 智能的检索其他的手动标注工具还有 等半自动标注是由标注人员 指定网页或者网页中的文本片段然后由标汴人员选择合适的本体概念或属性或者由系统自动显示可选的本 体概念戌属性最后生成并保存语义标汴结果典型代表就是由主导的 项目亡是最早的基于 的语义标注项目该项目实现了一个半自动语义标注工具 标注人员可以通过添加标注模板来完成 半自动标注但是由于标注工作必须由人工在客户端软件中完成因此 并不适合大规模的网页语义标 注共他的半自动标注工具还有 等自动标注是指标注工具可以按照预定的规则自动产生并 保存语义标注信息典型代表有 它把常见的概念和关系映射到本体中的类和属性 并采用自然语言处理和信息抽取方法从网页文档中自动生成 标记的知识其他的自动标注工具还有 笭研究表明釆用自动标注方式虽然提高了标注速度但其标注质量很难得到保证 本文采用的是基于 开发的众包半自动语义标注工具可以满足众包标注过程中的标注审核、标注溯 源、共指消解、数据存储等需要极大地提升了众包标注的效率 信息抽取 信息抽取包括实体抽取、关系抽取和属性抽取 实体抽取也称命名实体识别是从文本中自动识别出命名实体与之相似的仟务是实体集扩充该仟务指的 是根据种子实体集从文本中扯取出相同类別的新实体对于实体集护充 方法是最直接的想法 此方法根据种子实体从文本屮抽取出特征樸板然后利用这些馍板从文本屮抽取出新的实体再根据新实体从 文本屮抽取新的特征模板反复迭代此过程便可以抽取岀目标概念下大量的新实体这种方法最大的问题是语 义漂移即随着迭代次数的増加扩充的新实伫会逐渐偏移原来的类别 关系抽取指的是从文本中抽取出实体和实体之间的关系这样小能将零散的实体联系起来关系抽取的算 法可以分为基于规则的方法和基于机器学习的方法基于规则的方法需要人工制定较多规则且难以全面基于 机器学习的方法又可以分为有监督、半监督和无监督这类有监督的方法需要大量质量较好的标注数据半 监督的方法需要少量标注数据无监督的方法不需要枟注数据使用有监督的方法进行关系抽取可以看作是多 分类问题预先将每个关系定义为一个类别然后将句」中实体之间的关系划分到预先定义的类别中较多采用 的半监督算法有 算法、协同训练算法和枟注传播算法其中 方法中的远程监督 方法目前最受学界关注该方法首先将每种关系的少量元组作为种子集然后回标出同时包含种子集中元 组的两个实体的句子作为表征这一关系的训练数据再从文本中找出符合这一关系的其但句子这些句子中的 实体和实体之间则很有可能也淓足这一关系该方法最大的问题是训练数据噪声即包含两个实体的句子的语 义关系可能会有很多种但是回标的时候所有句子被当成了一种语义关系本文对有监督、半监督和无监督的 方法都进行了相关实验 属性抽取则是从文本屮抽取出实体的属性信息例如实体屮国的面积、人口数量等属性由于可以将 实体的属性视为实体和属性闰的一种名词性关系因此也可以将属性抽取问题视为关系抽取问题故以下属 佐抽取也归为关系抽取的范畴不再分开表述 地理学科知识图谱构建 本节将以面向基础教育的地理学科知识图谱的构建为例详细介绍使用四步法构建领域知识图谱的过 程构建框架如图所示其中个步骤的貝体内容如下 领域木伓构建基于地理学科权威的教材教辅资料利用无监督的 方法和相关统计方法参考 其他知识图溍的木休结构结合地理学科领域专家和一线敩师的指导意见完成面向基础教育领域的 地理学科本体构建 中国科学院软件研究所htp:;ww.jos.org.cn 杨玉基竽一种准确而高效的领域知识图谱构建方法 众包半自动语义标注将地理学枓教材教辅电了化后得到的文本作为标注对象并以地理学枓领域本 体为标注依据使用语义标注系统进行半自动语义标注形成标注数据且冇此过程中完善地理学科 领域本体 外源数据补全按照地理学科知识图谱的本体结构对结构化的外部数据源进行相应的处理之后得 到外源数据作为地理学科知识图谱的重要部分 信息抽取利用标汴数据中的数捱作为训练数据按照地理学科知识图谱的本体结构采用有监督、半 监督和无监督的方法从百度百科等互联网文本中抽取实体和关系得到扩充数据 图国> Genomes等结构化 教材教辅文本 构建 众包半白动词义可注 知识清洗 导. 面向玉础教百的 地理学料本体 标注数掘 外源数据 知识合并 知课合井 抽导捏供训练数据 百庶百科等文本 扩充效据 面向呈础教育的地理学科想识图谱 图地理学科知识图谱的构建路线 本体构建 对于基础教育领域的学科本体覆盖率和准确率是非常重要的评价指标在当前中文本体自动构建技术还 不成熟的情况下我们结合基础教育领域的特点和用本体学习和统计学习等方法得到的本体知识结合其他知 识图谱的本体知识在专家的指导下构建出了地理学科领域本体 归纳领域概念 领域的核心概念对应的是本体中的类 每个核心概念都对应着许多实例例如国家这个概念 卜就对应着中国美国俄罗斯等实例我们采用种方法来得到地理学科领域的核心概念 用统计方法得到领域术语再从领域术语中得到领域核心概念 领域的核心概念是领域术语的亍集合因比可以用获取领域中术语的方法来荻得领域概念 从理论上讲领域中的重要术语需要满足两个基本条件术语在域相关文档中出现的频率相对较 高术话在领域相关文档中出现的頻塞远高于在普通文档中出现的频率 结合重要术诟的两个基本条件可以看出领域屮的亘要术语和文档集合屮的关键词非常类似所以利用相 关统计学理论和文本挖掘技术可以对领域屮重要术语的归纳起到一定的辅助作用进而大大缩小重要术语的 查找范围 算法和 算法是关键词提取研宄领域中两个最基本的算法 算法是一种统计方 法它的作用是评估一个词对于一个语料库中的其中一分文档的重要程度该算法的核心思想是一个词话的 重要性随看它在文档中岀现的次数成正比地增加但同时会随着它在语料痄中岀现的频率成反比地下降 算法综合考虑了词语岀现的频率、位置和密度等因素但是它没有对整篇文档中相互有联系的词 语进行综合考虑而 算法恰恰考虑到∫词语之间的关系并对词涪的車要程度进行分配 ◎屮国科学院软件研究所htp:/ww.jos.org.cn 软件学报 算法基于 的 算法其核心思想与 算法相同如果将网络中的节点看 作是词语那么冇词语网络中词语的重要程度取决于与它相连的词语指定窗凵内的词语给它的投票数目而 票的权重取决于该词语自己的票数 以上两种算法得到的关键词确实有不少是地理学科的核心概念例如国家城市河流海洋地形等 等而有些词语虽然岀现频率较髙但是是实例而不是概念例如温带和中国还有些词语虽然岀现频繁但 是与地珒学科并不具有强相关性例如清单现象年代产生作用等 参考质量较高的知识图谱或数据源 我们主要参考了 是一套包含语义信息的被各大搜索引擎所支持的标签的词汇表这里的 标签等同于概念 是一个大规模的通用知识图谱因此它也有一套概念体系 中的每个地名都 有对应的 信息而这些 对应的就是概念 众包半自动语义标注步骤中进行完善补充 以上方法得到的核心概念的归纳整理需要参照本体构建的两个基本原则即本体中类的设计应当秉承独 立性和共享性原则前者指的是这个类可以独立存在不依赖于特定的领域后者指的是类是可以共享的即 有被复用的可能和必要此外本体中包含的类的数目应该尽可能地最小化尽可能地去除冗余的类根据上面 的原则我们最终确定了地理学科的核心概念如图展示的是位于地理事实概念卜的核心概念每个节点是 个概念节点之间的连线表示父概念靠近中心的节点和子概念远离中心的节点的关系 以西 国博经积性面际组织 添解 文旅态源 图地理学科本体中的核心概念部分 中国科学院软件研究所htp:;ww.jos.org.cn 杨玉基竽一种准确而高效的领域知识图谱构建方法 定义领域关系及其约東 关系是本体的核心基本要素它是对领域中的概念、实例之间的相互作用的描述关系直接决定了本体知 识图谱的知识丰富程庋以及基于知识图谱构建的其他应用系统的功能范围关系学习是本体学习中的一个重 要部分我们主要通过种方法米定义关系 利用 方法对地理学科领域文本进行无监督的开放关系抽取再从中找到有意义的关系优点 是无需标汴语料戌其他预处理直接就可以抽取原始文本缺点是抽取出的结果大多数是像船员们 历经千辛万苦这样无意义的关系我们将从本地理教材教辅中得到的 个句子用 工具 处理后得到了 个带有打分 值的关系抽取结果并在此基础上对关系进行过滤 参考质量较高的知识图谱或数据源 和 是维基百科的结构化版本也可以理解为是一个大规模的通用知识图谱我们主 要参考了地理概念相关的关系列表 在每个标签下有其对应的众多关系我们也主要参考了地理领域相关 的标签例如城市标签 根据核心概念和百科信息框来确定关系每个核心概念卜都有很多实例大多数实例在百科中都有对 应的信息框通过整合同一概念下多个实例的信息栏信息便可以得到该概念下较为重要的关系例 如国家概念下有中国美国俄罗斯等国家这些国家的信息框中都包含了面积人口数量等 关系那么这些关系就比较重要 众包半自动语义标注过程中补充新的关系在众包半自动语义标注过程屮如果发现有新的关系无法 用已有的关系表达时便说明这是一个新的关系需要补充 根据上述方法我们最终整理得到了多个关系对于每个关系都有详纽的描述包括关系的名称、描述、 形式、定义域和值域等内容表是地理学科的特征关系的详纽描述 表特征关系的描述 名称 摧述 值 关系的名称 特征 关系的描述 地理常用属忾特点特性 关系的 关系的定义域 关系的值域 关系的类型 数值属性 木体检查 目前学术界硏究学者公认在构建领域本体的过程中需领域专家的参与和协作所以在完成∫前面的本 体构建的两个步骤之后我们特别邀请∫北京市具有丰富教学经验和教材分析能力的地理学科专家和一线教 呃来指导我们对本体进行检査和评估根据专家的指导意见我们修改和完善后得到最终的地理学科领域本体 地理专家和一线教师的扫导主要包括两方面一是核心概念的结构是否合理例如专家建议总的可以分为地理 概念、地理事实、地理方法和地理原理二是每个穊念的合理性、必要性以及枏似概念间的辨析例如专家建 议要有地理名人这个概念 众包半自动语义标注 标注数据是地理学和知识图谱的基础和重点我们采取的是众包半自动语义标注的方式来保证质量和效 率标注的数据来源是 格式的教材教辅文本 基于领域本体的语义标注是指在领域本体的指导下从文档中抽取岀结构化知认的过程即将文裆中的纯 文本知识用语言描述出来语义标注的过程通常可以包含两种标注 中国科学院软件研究所htp:;ww.jos.org.cn 软件学报 类型标注将文档中与本体中概念相对应的词话标记岀来并将该词语作为概念所对应的实例 关系标注找出实例之间存在的与本体中关系相对应的关系关系标注可以丰富实例的内在信息标 注时通常将实例及实例间的关系表示为元组形式 其中是实例和之间的关系 从对比结果中我们可以总结出语义标注系统作为知识图谱构建的关键系统其主要需求包括以下几点 标注依据语义标汁系统提供的是基于本体的语义标汴功能所以亡必须要能够导入一个或多个本体 描述文件或者采用包含本体信息的文作进行配置这样语义标注系统才有了基本的标注依据 标注对象语义标注系统一般都支持对文本文件或者静态网页文件的标注目前人多数的教材教辅 书籍数据都存放在静态网页文件中所以语义标注系统需要支持对静态网页文件的标注功能 标注方式语义标注系统必须能提供基本的标注功能包括类型标注和关系标注同时老虑到教材教 辅书籍数据中存在着大量的图片也需要进行标注所以语义标注系统还要能够支持图片标注的功能 本体语言日前大多数的语义标注工具都只支持 等本体语言中的某个 或者某几个而对推荐的最新的本体描述语言支持较少所以为了更好地使用不同的本体 语言语义标注系统应该能够支持目前主流的本体语言例如和 除了上面个基本需求之外结合我们构建的地理学科知识图谱目标我们认为以卜需求对于语义标注系 统同样重要 协同式标注出现时间较早的语义标注系统一般都是模式的不仅需要标注人员安装客广端而且 软件配置和语义标注过稈都不太方便随着互联网的发展基于模式的语义标注系统逐渐出现因 为它可以很方便地文持大量标汁人员的协同式标注显著地提高了标注速度 标注审核标注系统应该具有一定的用户权限控制简单情况下用户主要包括标注人员和审核人员 两和其屮标注人员只能编辑和删除自己的标注记录而审核人员可以编辑和删除当前页面所有标 注人员的标注记录 标注溯源对于任何一条由页面标注而产生的知识在生成对应知识的同时需要保存将来能够追溯到 具体的标注来源这个元数据信息通常标注溯源都是采用 技术来实现的 是一和 根据数据在文件中的位置、字符内容或者属性值笭特性对数据进行定位的语言 标注数据存储标注数据的存储也是需要重点考虑的问题目前匚有不少岀色的数据库可供选 择其中 数据库是一个开源项目它不仅架构简单易丁部署而且功能完善易丁操作它实现 了一个通用的数捃管哩枉架并提供∫相应的编程接口以哽J集成不冋的存储系统、推理和查 询引擎等 共指消解实例的共指问题是标注网页数据的过程中经常出现的问题它是指在不同的网页文档中出 现了相同的实例例如多个文档中都出现了地名实例中国为了避免产生多个重复冗余的实例标 工具应该具有实例杳询的能力这样当遇到相同实例时可以选择已绎存在的实例进行标汴从而 避免重新生成新的实例造成的实例共指问题 针对以上几点需求结合当前要构建的地理学科知识图谱目标我们提出相应的语义标注的架构如图所 示在地理学科本体和资源管理系统的基础上利用语义标注系统通过标注人员的标注产生标注数据库最终 清洗导出到标注数据中 我们研发的语义标注系统在原 系统功能的基础上添加了许多新的功能例如 标注审核权限控制为了保证标注结果的准确率对标注人员的标注结果进行审核是语义枟注系统的 个核心需求 添加本体描述文件作为标注系统的配置原系统虽然支持自定义属性和领域词表但是它并不直接支 持将本体描述文件作为标注系统的配置也不支持根据网页数据类型灵活地改变属性和领域词表的 功能所以为了方便语义标注系统能够自适应不同领域的本体配置我们添加了此项功能 自定义新建实例和搜索实例当实例的名称在页面内容中不存在时如何创建新的实例考虑到在标 中国科学院软件研究所htp:;ww.jos.org.cn 杨玉基竽一种准确而高效的领域知识图谱构建方法 注中有北需求故而我们添加此功能而搜索实例则是为∫减少实例共指的问题即标注人员在进行 关系标注时可能并不确定某个实例是否已经在标注数据中存布了自定义新建实例的功能和实例搜 索功能一般是联动的首先是进行实例搜索如果搜索到相应的实例就直接使用如果没有搜索到相 应的实例则可以新建实例 地理种本体 安源苫理系 标管据 注对象 导入地理不体 导入标资重 语义标注系統( NES AFE 语标注系皱(后 保在R三元编 保存标注亓据 HUF 疗标注裂据 My StYL 元烈 图语义标汴的架构 知识清单是课本内容的凝练考虑到标注所有误本花费的时间和人力成本较大主要对知识覆盖率满足需 求的初高中知识清单进行」众包标注如图所示基本志路是标注管理员确定好标注方案由标注人员进行 枟注标注管理员再进行审核经过标注人员的标注和标注管理员的审核我们获得了一个准确率和覆盖率都接 近的标注数据同时也自下而上地完善、确定了本体为后续外源数据补全和信息抽取打下了良好的基础 写漆系我的已量 n·创建新的三元组 农迎使用标注系憾 网有最核心念知识系 比是是频区 CA国家 As国标眼织 且三曰 标注录过器E/8 知识1比识尺导 1念及计算公式 出尺 地图上的比例尺是表示图上距离比实地正离缩小的程度,又叫缩尺,用公式丧示。容 为:比尺一图上距离/实地距离 鲁他尺 比尺 应意三点:(1)比例尺只表示距商绵小的程舆,而不表云面积缩小的程度:(2)E例 尺本身是没有单位的,但比例尺中的图上距离和实地距离均以厦米为单位,比例风以外的卖地距离一图上的比铜只品图上面比实地离 假以干米为单位:(3)学会应用比钢尺的变形公式,即上距高实地距离x比例;实地比民 =图上距离比例尺 温握示 比尺一围上距夏/距离 比例尺本身及有单笪,但计算时要注意图上距离与实地距离然单位需先换算一。图⊥距离往柱比R 需要在地图上量取。 图半白动众包语义标注系统 中国科学院软件研究所htp:;ww.jos.org.cn 软件学报 外源数据补全 外源数据指的是妒部数据源按照地理学科领域本体结构处理后得到的与标注数据结构一致的数据 妒部数据源一般是互联內上公开的知识图谱或其他结构化程度较好的內站特点是数据量大、结构较好以下 介绍地理学科知识图谱中的个部数据源 是地押信息领域较为权威的一个知识图谱包含超过万条的地理地名信息数据准确率高 十要是英文数据较重要的地名会有其他语言的名称例如含有中文名称的地名有万多个每个地名信 息有个属性信息部分属性可为空“部分属性信息可以直接作为知识图谱中的元组事实例如经度 部分属性信息需要按照本体结构进行处理例如我们将特征码 属性信息处理后作为实 例和概念间关系将一级行政区划码 、二级行政区划码 等属性信息处理后作为地名 之间的上下位关系 百度百科信息框 百度百科信息框是领域知识图谱扩充三元组事实较好的来源在第节中众包语义标注和第节中 实休集扩充步骤得到的实例的基础上我们通过以下步骤得到高质量的三元组 获取实例和关系名集合对每个概念我们用表示它的实例集合对每一个实例我们 都爬取该实例对应的白度百科信息框得到所有信息框中的关系名集合 集合大小为 连边如果实例的信息框中含有则将与之间边的权重设置为如果不含则设置为为∫避 免出现图稀疏现象我们加上了实例和实例、关系名和关系名之间的边对于实例和实例连边的操作 首先为每一个实例设置一个关系名向量向量的维度等同于关系名集合的大小如果关系名存 在于该实例的信息框中则设置为若不存在则将该位置设置为进而可以得到实例和实例关系名 向量之间的余弦相似度作为实例和实例之间边的权重同理可以给每个关系名设置一个实例问量 进而得到关系名和关系名之间的余弦相似度作为它们之间边的权重 迭代计算我们采用了一科图强化算法进行迭代迭代计算后便可得到每个概念下的实例和关系 名典型度排序 将典型度高的关系名及其值信息加入到知识图谱中 值得一提的是上述步骤还冇检查知识图谱中实例分类错误的作用如果步骤中得到某概念下的实例典 型度较低则很有可能是分类错误的实例 中国行政区划信息 中国行政区划在地哩学科中较为重要为此我们从国家统计同网站 得到∫中国行政区划精确到乡镇层级的信息主要是行政区划之间的上下位关系因为 是完全结构化的呈现方式因此数据按照本体结构处理后直接加入知识图谱 信息抽取 扩充数据指的是利用之前得到的标注数据和外源数据运用机器学习等方法从文木中抽取的 元组 数据扩充数据是地理学科知识图谱的重要组成部分我们使用的文木语料是《中国大百科全书》中的《世界 地理》卷、《中国圯理》卷、《地理学》卷以下简称中国大百科文本和百度百科维基百科文本以下简称百度 维基文本两部分涪料各有特点中国大百科文本数量虽少质量却很高百度维基文本质量一般但数量却很大 实体集扩充 我们想要根据知认图谱中个概念的实体集进行扩充使用的方法是词向量词向量最早是由 于 个属性名依次为 中国科学院软件研究所htp:;ww.jos.org.cn

...展开详情
img
wilbertzhou

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐