摘 要
Web2.0 时代下,人与人之间通过社交网络进行交互连接,以社交网络的网络结构
为单位传播信息。社交网络的网络结构是指网络中成员的构成及其相互作用、相互影响
的状态,以及由这种状态形成的相对稳定的联系模式。随着社交网络的应用逐渐广泛与
流行,网络中成员间关系的复杂性呈指数增长。其关系复杂性的增加,一方面加剧了网
络数据的挖掘难度,另一方面大幅提高了社交网络中复杂关系的研究价值。
本文基于图数据库存储模式,深入分析社交网络的网络结构,以网络中的成员为节
点,成员之间不同类型的连接为指向关系边,构造基于正则表达式的匹配模型,给出相
应的算法并成功应用于人口研究领域,实现高效新型的家庭分类的统计查询。在理论研
究的基础上为人口大数据的研究开创了新的思路。本文主要完成了以下几个方面的工
作:
1)基于正则表达式构造匹配模型。在分析图数据库中存储的 Essembly 社交网络数
据基础上,结合正则表达式的匹配描述,给出数据图和模式图的定义。进而从节点间的
结构信息与节点属性以及节点间指向关系边的语义信息出发,构造概念匹配模型。并以
真实家庭结构的人口数据建立对应的应用模型。
2)提出基于正则表达式的图模式匹配算法。基于强模拟算法思想,采用正则表达
式匹配引擎构造的匹配模型,应用近似最优解代替最优解的近似图匹配方法,在大规模
社交网络数据图中,提出基于正则表达式的图模式匹配算法,对社交网络的网络结构进
行查询。
3)使用不同数据集验证算法的可行性。文章选用三个不同数据集,从节点属性、
标签以及边类别等方面比较实验数据。从准确率和效率两个方面,对提出的基于正则表
达式的图模式匹配算法的可行性,进行实验验证。其中,效率方面,在相同规模查询模
式图中,将算法基于三个数据集的查询时间进行对比;准确率方面,选取市级人口数据,
以夫妇核心家庭为例进行查询,统计家庭户内人口比例以及家庭户比例,并将算法查询
结果与人口研究领域中入户统计结果进行对比。
4)将算法应用于人口领域,进行家庭分类查询。基于 H 省全员人口数据库,发现
隐含人口亲属关系,构建亲属关系网络。基于亲属关系网络,以核心家庭为例,分析发
现家庭结构中的人口数与关系边数、家庭模式数均具有一定数量关系,同类别的家庭结
万方数据
评论0
最新资源