知识图谱应用的前提是已经构建好了知识图谱,也可以把它认为是一个知识库。这也
是为什么它可以用来回答一些搜索相关问题的原因,比如在 Google 搜索引擎里输入
“Who is the wife of Bill Gates”,我们直接可以得到答案-“Melinda Gates”。这是因为我
们在系统层面上已经创建好了一个包含“Bill Gates”和“Melinda Gates”的实体以及他俩
之间关系的知识库。所以,当我们执行搜索的时候,就可以通过关键词提取(”Bill Gates”,
“Melinda Gates”, “wife”)以及知识库上的匹配可以直接获得最终的答案。这种搜索方
式跟传统的搜索引擎是不一样的,一个传统的搜索引擎它返回的是网页、而不是最终
的答案,所以就多了一层用户自己筛选并过滤信息的过程。
在现实世界中,实体和关系也会拥有各自的属性,比如人可以有“姓名”和“年龄”。当一
个知识图谱拥有属性时,我们可以用属性图(Property Graph)来表示。下面的图表
示一个简单的属性图。李明和李飞是父子关系,并且李明拥有一个 138 开头的电话号,
这个电话号开通时间是 2018 年,其中 2018 年就可以作为关系的属性。类似的,李明
本人也带有一些属性值比如年龄为 25 岁、职位是总经理等。
图的表达很贴近现实生活中的场景,也可以很好地描述业务中所包含的逻辑。除了属
性图,知识图谱也可以用 RDF 来表示,它是由很多的三元组(Triples)来组成。RDF
在设计上的主要特点是易于发布和分享数据,但不支持实体或关系拥有属性,如果非
要加上属性,则在设计上需要做一些修改。目前来看,RDF 主要还是用于学术的场景,
在工业界我们更多的还是采用图数据库(比如用来存储属性图)的方式。感兴趣的读
者可以参考 RDF 的相关文献,在文本里不多做解释。
知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中
抽取出来。对于垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:一种是