没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
现实世界中的图往往在结点和边上包含描述信息,可达性查询是图数据管理和挖掘中的基本操作之一。针对图数据中标签约束的可达性计算问题,提出一种基于递归划分的可达性计算方法RP-Hop。该算法基于层次划分思想,利用独立集性质,在保持标签和可达性前提下对大规模图进行递归划分,并结合贪婪扩展思想和递归编码,为标签约束的可达性查询提供压缩索引。经过合成和真实数据集上的实验,结果表明,RP-Hop算法不仅降低了索引大小和构建时间,而且提高了查询效率。
资源推荐
资源详情
资源评论
第 36卷 第 5期 国 防 科 技 大 学 学 报 Vol.36No.5
2014年 10月 JOURNALOFNATIONALUNIVERSITYOFDEFENSETECHNOLOGY Oct.2014
doi:10.11887/j.cn.201405017 http://journal.nudt.edu.cn
递归划分的标签约束可达性计算方法
吴 烨,钟志农,熊 伟,景 宁
(国防科技大学 电子科学与工程学院,湖南 长沙 410073)
摘 要:现实世界中的图往往在结点和边上包含描述信息,可达性查询是图数据管理和挖掘中的基本操
作之一。针对图数据中标签约束的可达性计算问题,提出一种基于递归划分的可达性计算方法 RPHop。该
算法基于层次划分思想,利用独立集性质,在保持标签和可达性前提下对大规模图进行递归划分,并结合贪
婪扩展思想和递归编码,为标签约束的可达性查询提供压缩索引。经过合成和真实数据集上的实验,结果表
明,RPHop算法不仅降低了索引大小和构建时间,而且提高了查询效率。
关键词:标签约束可达性;递归划分;2hop编码
中图分类号:TP391 文献标志码:A 文章编号:1001-2486(2014)05-098-07
Alabelconstraintreachabilitycomputationmethod
onrecursivepartition
WUYe,ZHONGZhinong,XIONGWei,JINGNing
(CollegeofElectronicScienceandEngineering,NationalUniversityofDefenseTechnology,Changsha410073,China)
Abstract:Manyoftherealworldgraphsareedgelabeledornodelabeled.Afoundationaloperationontheselabeledgraphsishowtoanswer
reachabilityqueriesfast.Forthelabelconstraintreachabilitycomputationproblem,acomputationmethodcalledRPHopbasedonrecursive
partitionwasproposed.RPHopfirstutilizedthehierarchicalstructureandindependentsetpropertytopartitiontheoriginlargegraphrecursively,
whilekeepingreachabilityandlabelsonpathsbetweennodepairssimultaneously.Combinedwithgreedyandrecursivelabelingstrategies,RPHop
producedacompressedindexforlabelconstraintreachabilityqueries.ExperimentsonsyntheticandrealworldgraphdatasetsdemonstratethatRP
Hopcanreduceindexsizeandconstructiontime,andguaranteethequeryefficiency.
Keywords:labelconstraintreachability;recursivepartition;2hoplabeling
图数据模型是描述现实世界的普适模型,社
会网络、生物信息、化学结构、电信网络、交通网络
等都可以用图数据模型来表达。日益增长的图数
据规模,使得图数据的管理和挖掘成为数据库领
域的研究热点。可达性查询是图数据管理中的基
础问题之一,用来回答两个结点之间是否存在一
条可达路径。高效的可达性查询在软件工程、社
会网络分析、XML、语义网等领域中有广泛的应用
前景
[1]
。
近年来,可达性查询吸引了众多研究者的兴
趣。简单来说,回答图上可达性查询的方法可以
分为三类:传递闭包
[2-3]
、在线检索
[4-5]
以及 Hop
编码方法
[6-7]
。传递闭包方法能在 O(1)时间回
答可达性 查询,但是 由于其高昂的预 计算代价
(
( )
O V E )和存储代价(
O V
( )
2
),扩展性不
强。在线查询方法能够回答大规模图上的可达性
查询,但是查询速度有待提高(O(
V + E ))。
Hop编码方法介于上述两者之间,在较低索引构
建代价的同时能够保持较好的查询性能
[1]
。
事实上,现实世界中的图往往在结点和边上
包含了属性信息
[8-9]
,用以描述不同类型的实体
或者实体间的关系,比如朋友关系、合作关系等。
实际应用中,在回答两个实体是否可达时,只有考
虑了可达性路径上的标签,结果才是有意义的。
下面列举两个典型的应用实例:
交通网络:假设一家供货商计划通过卡车将
一批货物运送到各个商店,考虑到公共健康和安
全因素,某些地方是不允许卡车通行的。于是,标
签约束的可达性查询可用来计算两个点之间的一
条可达路径。
社会网络:在社会网络中,结点表示人,边表
示人与人之间的关系,边上不同的属性值表示不
收稿日期:2014-01-02
基金项目:国家自然科学基金资助项目(61070035);湖南省自然科学基金资助项目(11JJ4028)
作者简介:吴烨(1986—),男,湖南益阳人,博士研究生,Email:yewugfkd@nudt.edu.cn;
景宁(通信作者),男,教授,博士,博士生导师,Email:ningjing@nudt.edu.cn
第 5期 吴烨,等:递归划分的标签约束可达性计算方法
同的关系,例如上下级关系、父子(女)、师生关系
等。如果某 个 查 询 需 要 回 答 两 个 人 是 否 是 亲
戚
[8]
,则 可 以 通 过 约 束 连 接 两 个 人 的 路 径 来
实现。
为有效回答标签约束的可达性查询,研究者
们提出了一些方法。SamplingTree
[8]
方法为了在
存储空间和时间效率之间做出平衡,采用树索引
结构,通过构建最大权重生成树加上一个部分传
递闭包,实现对传递闭包的压缩,并通过结合采样
技术,进一步减小所依赖的传递闭包大小。然而,
SamplingTree方法需要事先计算所有结点之间的
传递闭包,且单个生成树和部分传递闭包方法对
压缩传递闭包效果不是很明显,即使在小规模图
上构建索引的时间代价都很高。Xu等
[9]
通过去
除单源传递闭包计算过程中的冗余计算,改善了
传递闭包的计算代价。通过将图划分为较小的分
块,在每个分块上计算传递闭包,在边界结点构成
的框架图上计算是否可达。该方法同样需要对传
递闭包进行物化,时间和空间代价过大。
为提高大规模图上的查询效率,一种常用的
处理方式对图进行划分,形成层次结构。通过递
归抽取关键结点,形成骨干网络
[10]
,使得非骨干
网上的结点到骨干网的距离小于设定阈值。基于
独立集
[11-12]
,将大图“折叠”,并在“折叠”过程中
保持结点间的可达性,但没有考虑结点或边上的
标签。另一种构建层次结构的方法是,将图划分
为小的子图,或者抽取边界结点,事先计算每个子
图边界结点之间的最短距离
[13]
。通过层次结构,
计算任意给定两个结点之间的距离。类似这样的
方法存在以下不足:图的划分本身就是一个难题,
在何种准则下对图进行快速划分;对非平面图而
言,子图相互之间的边可能非常多,导致边界结点
数量很大。
本文在已有研究基础上,基于递归划分结构,
研究一种标签约束的可达性计算方法。
1 问题描述
为描述方便,本节首先给出问题的基本描述
和文中用到的定义。
定义 1 边约束标签图
边约束标签图定义为 4元组 G=(V,E,
Σ
,f
e
),
其中 V表示结点集合,E表示边的集合,
Σ
表示边上
的标签集合,函数 f
e
:E
!Σ
定义了从边到标签的映
射关系,将每条边 e
∈
E映射为标签 f
e
(e)
∈Σ
。
定义 2 边标签约束的可达性查询
给定结点 u,v
∈
G和标签约束 A
Σ
,如果存
在一条路径 p从结点 u到 v,且 p上的标签 L(p)
A,则称结点 u和 v在标签 A约束下可达,表示
为 u
A
v。
例 1 如图 1所示,整数表示结点,小写字母
表示边上的标签约束。举例来说,结点 10能到达
13,其标签是{a,c}和{a,b},即 u
A
v,其中 A=
{a,c}
∪
{a,b}。进一步,有(10,7,8,12,13)是结
点 10和 13之间的{a,b}路径。有(10,7,9,11,
13)是结点 10和 13之间的{a,c}路径。
图 1 示例
Fig.1 Example
在实际应用中,结点上也可能存在标签约束,
用来表示实体的属性。与边约束标签图类似,结
点约束标签图定义为 4元组 G={V,E,
Σ
,f
v
},其
中 f
v
:V
!Σ
表示每个结点 u
∈
V具有标签 f
v
(u)
∈Σ
。通常地,可以将一个结点标签约束的图转
化为一个边标签约束的图。如图 2所示,路径 p
经过结点 v
i
和 v
j
,结点的相应标签为 A和 B。如
果将其转化为边标签图,则路径 p′应该以 v
i
和 v
j
为端点,且边上标签为 A和 B。所以,对任意的以
边 v
i
和 v
j
为端点的边 e
∈
E,增加一个结点 v
k
,使得
f
e
(v
i
,v
k
)=f
v
(v
i
)且 f
e
(v
k
,v
j
)=f
v
(v
j
)。因此,本
文主要讨论边标签约束的图。
图 2 结点标签转化为边标签
Fig.2 Convertnodelabeltoedgelabel
2 递归划分模型
在线遍历查询方法和基于传递闭包的方法是
计算可达性查询的两个极端方法,前者需要最少
的内存但需要高计算代价回答可达性查询;后者
·99·
剩余6页未读,继续阅读
资源评论
weixin_38715097
- 粉丝: 2
- 资源: 945
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功