知识图谱与智能问答基础理解(1).pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
知识图谱与智能问答基础理解 什么是知识图谱? 什么是知识图谱? 知识图谱本质上是语义⽹络,是⼀种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱⾥,每个节点表⽰现实世界中存在 的"实体",每条边为实体与实体之间的"关系"。知识图谱是关系的最有效的表⽰⽅式。通俗地讲,知识图谱就是把所有不同种类的信息 (Heterogeneous Information)连接在⼀起⽽得到的⼀个关系⽹络。知识图谱提供了从"关系"的⾓度去分析问题的能⼒。 image.png 知识图谱这个概念最早由Google提出,主要是⽤来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可⽤来更好地 查询复杂的关联信息,从语义层⾯理解⽤户意图,改进搜索质量。⽐如在Google的搜索框⾥输⼊Bill Gates的时候,搜索结果页⾯的右侧还 会出现Bill Gates相关的信息⽐如出⽣年⽉,家庭情况等等。 image.png 上⾯提到的知识图谱都是属于⽐较宽泛的范畴,在通⽤领域⾥解决搜索引擎优化和问答系统(Question-Answering)等⽅⾯的问题。接下来 我们看⼀下特定领域⾥的 (Domain-Specific) 知识图谱表⽰⽅式和应⽤,这也是⼯业界⽐较关⼼的话题。 知识图谱的表⽰ 知识图谱的表⽰ 假设我们⽤知识图谱来描述⼀个事实(Fact) - "张三是李四的⽗亲"。这⾥的实体是张三和李四,关系是"⽗亲"(is_father_of)。当 然,张三和李四也可能会跟其他⼈存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加⼊到知识图谱以后(电话号码也 是实体),⼈和电话之间也可以定义⼀种关系叫 has_phone,就是说某个电话号码是属于某个⼈。下⾯的图就展⽰了这两种不同的关系。 image.png 另外,我们可以把时间作为属性(Property)添加到 has_phone 关系⾥来表⽰开通电话号码的时间。这种属性不仅可以加到关系⾥,还可 以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传 统的RDF格式都可以作为知识图谱的表⽰和存储⽅式,但⼆者还是有区别的,这将在后⾯章节做简单说明。 知识图谱的存储 知识图谱的存储 知识图谱是基于图的数据结构,它的存储⽅式主要有两种形式:RDF存储格式和图数据库(Graph Database)。⾄于它们有哪些区别,请参 考【1】。下⾯的曲线表⽰各种数据存储类型在最近⼏年的发展情况。从这⾥我们可以明显地看到基于图的存储⽅式在整个数据库存储领域 的飞速发展。 image.png 下⾯的列表表⽰的是⽬前⽐较流⾏的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域⾥占据着NO.1的地位,⽽且 在RDF领域⾥Jena还是⽬前为⽌最为流⾏的存储框架。 image.png 当然,如果需要设计的知识图谱⾮常简单,⽽且查询也不会涉及到1度以上的关联查询,我们也可以选择⽤关系型数据存储格式来保存知识 图谱。但对那些稍微复杂的关系⽹络(现实⽣活中的实体和关系普遍都⽐较复杂),知识图谱的优点还是⾮常明显的。⾸先,在关联查询的 效率上会⽐传统的存储⽅式有显著的提⾼。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会⾼出⼏千倍甚⾄⼏百万倍。其次, 基于图的存储在设计上会⾮常灵活,⼀般只需要局部的改动即可。⽐如我们有⼀个新的数据源,我们只需要在已有的图谱上插⼊就可以。于 此相反,关系型存储⽅式灵活性⽅⾯⽐较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是⾮常⾼的。最后,把实体 和关系存储在图数据结构是⼀种符合整个故事逻辑的最好的⽅式。 什么是知识库 什么是知识库 "奥巴马出⽣在⽕奴鲁鲁。" "姚明是中国⼈。" "谢霆锋的爸爸是谢贤。" 这些就是⼀条条知识,⽽把⼤量的知识汇聚起来就成为了知识库。我们可以在wiki百科,百度百科等百科全书查阅到⼤量的知识。然⽽,这 些百科全书的知识组建形式是⾮结构化的⾃然语⾔,这样的组织⽅式很适合⼈们阅读但并不适合计算机去处理。为了⽅便计算机的处理和理 解,我们需要更加形式化、简洁化的⽅式去表⽰知识,那就是三元组(triple)。 "奥巴马出⽣在⽕奴鲁鲁。" 可以⽤三元组表⽰为 (BarackObama, PlaceOfBirth, Honolulu)。 这⾥我们可以简单的把三元组理解为 (实体entity,实体关系relation,实体entity),进⼀步的,如果我们把实体看作是结点,把实体关系(包 括属性,类别等等)看作是⼀条边,那么包含了⼤量三元组的知识库就成为了⼀个庞⼤的知识图。 知识库可以分为两种类型,⼀种是以,为代表的Curated 知识图谱是现代信息技术中的一个重要概念,它是一种用于表示现实世界中实体及其相互关系的数据结构。知识图谱基于语义网络,由节点(实体)和边(关系)构成,能够有效地表达复杂的信息网络。最早由Google引入,目的是提升搜索引擎的性能,通过理解用户的语义意图提供更精确的搜索结果。 知识图谱的表征方式多样,例如在描述“张三是李四的父亲”这一事实时,张三和李四成为实体,"父亲"则是关系。进一步地,当电话号码作为实体加入,人与电话之间的联系可以通过has_phone关系建立,并可添加时间属性表示电话开通时间,形成属性图。属性图和Resource Description Framework(RDF)都是知识图谱的常见表示和存储形式,各有特点。 知识图谱的存储主要采用RDF格式或图数据库。RDF以三元组(subject-predicate-object)的形式存储数据,而图数据库如Neo4j则更适用于处理复杂关系的查询。在处理涉及多度关联查询时,图数据库通常比传统关系型数据库具有更高的效率和灵活性。对于简单的知识图谱,关系型数据库可能是更经济的选择,但对复杂关系网络,知识图谱的优势更为突出。 知识库是大量知识的集合,通常包含许多三元组,如("奥巴马", "出生地", "火奴鲁鲁")等。知识库可以分为两类:一类是Curated KBs,如从维基百科等来源抽取的结构化数据;另一类是Extracted KBs,主要通过自动抽取和机器学习方法从非结构化文本中获取知识。这些知识库为智能问答系统提供基础,使计算机能够理解和处理自然语言,进而生成准确的回答。 智能问答系统利用知识图谱和知识库进行信息检索和推理,理解用户的问题,查找相关信息并给出答案。这类系统在搜索引擎、虚拟助手和智能客服等领域有广泛应用,提高了信息获取的准确性和效率。 知识图谱和智能问答是当前信息技术发展的热点,它们在大数据时代背景下,为信息的组织、检索和理解提供了强大的工具,推动了人工智能和自然语言处理的进步。随着技术的不断发展,知识图谱和智能问答系统的应用将更加广泛,有望在更多领域带来颠覆性的变革。
- 粉丝: 192
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助