近两年来,随着 Linking Open Data 等项目的全面展开,语义 Web 数据源的
数量激增,大量 RDF 数据被发布。互联网正从仅包含网页和网页之间超链接的
文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关
系的数据万维网(Data Web)。在这个背景下,Google、百度和搜狗等搜索引擎
公司纷纷以此为基础构建知识图谱,分别为 Knowledge Graph、知心和知立方,
来改进搜索质量,从而拉开了语义搜索的序幕。下面我将从以下几个方面来介绍
知识图谱:知识图谱的表示和在搜索中的展现形式,知识图谱的构建和知识图谱
在搜索中的应用等,从而让大家有机会了解其内部的技术实现和各种挑战。
正如 Google 的辛格博士在介绍知识图谱时提到的:“The world is not made of
strings , but is made of things.”,知识图谱旨在描述真实世界中存在的各种实体或
概念。其中,每个实体或概念用一个全局唯一确定的 ID 来标识,称为它们的标
识符(identifier)。每个属性-值对(attribute-value pair,又称 AVP)用来刻画实
体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知
识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则
由属性或关系构成。上述图模型可用 W3C 提出的资源描述框架 RDF 或属性图
(property graph) 来表示。知识图谱率先由 Google 提出,以提高其搜索的质量。
为了更好地理解知识图谱,我们先来看一下其在搜索中的展现形式,即知识卡
片(又称 Knowledge Card)。知识卡片旨在为用户提供更多与搜索内容相关的信
息。更具体地说,知识卡片为用户查询中所包含的实体或返回的答案提供详细的
结构化摘要。从某种意义来说,它是特定于查询( query specific)的知识图谱。
例如,当在搜索引擎中输入“姚明”作为关键词时,我们发现搜索结果页面的右
侧原先用于置放广告的地方被知识卡片所取代。广告被移至左上角,而广告下面
则显示的是传统的搜索结果,即匹配关键词的文档列表。这个布局上的微调也预
示着各大搜索引擎在提高用户体验和直接返回答案方面的决心。图 1 从左到右依
次是 Google、百度和搜狗在搜索结果首页中所展现的与姚明相关的知识卡片。
1
http://linkeddata.org/
2
http://www.w3.org/TR/rdf-concepts/
3
https://github.com/tinkerpop/blueprints/wiki/Property-Graph-Model
评论0
最新资源