基于结构相似度的大规模社交网络聚类算法资源-CSDN文库

161 浏览量 2021-03-20 10:05:03 上传评论收藏 2.65MB PDF 举报

在信息技术不断进步的今天，社交网络已成为人们日常生活中不可或缺的一部分。社交网络的节点通常代表用户，边则代表用户之间的相互关系，比如好友关系、关注关系等。由于社交网络用户的多样性和互动的复杂性，社交网络分析已经成为了计算机科学领域的一个热门话题，而聚类算法是社交网络分析中一种重要的数据挖掘手段。聚类算法可以将具有相似特征的节点聚集在一起，形成社区或簇，这对于发现社交网络的潜在结构和模式具有重要意义。随着社交网络规模的不断扩大，如何处理大规模数据集的聚类分析成为了研究者面临的一大挑战。大规模社交网络的聚类不仅要求算法有高效的数据处理能力，还要求能够准确地发现网络中的社区结构。针对这一需求，研究者提出了基于结构相似度的社交网络聚类算法，该类算法将重点放在了社交网络中节点间的结构相似性上，而非仅仅依赖于传统的边的稠密度。结构相似度是一种衡量两个节点在行为或功能上相似程度的指标，它反映了社交网络中节点的交互模式和功能角色。例如，两个用户可能共同关注了相同的话题，或者拥有相似的朋友圈，这些都可以视为结构相似性的表现。通过挖掘和利用这些结构相似性，聚类算法可以更准确地发现网络中的自然社区。在大规模社交网络聚类算法的研究中，南开大学的研究团队提出了DirSCAN算法，该算法专注于有向社交网络的聚类问题，并提出了相应的并行版本PDirSCAN算法。所谓有向网络，即网络中的边具有方向性，例如，A关注B与B关注A在有向网络中是两种不同的关系。在有向网络中，结构相似度的概念需要更加复杂地考量，因为不仅要分析节点间的相互关系，还要考虑到关系的流向。 DirSCAN算法通过分析节点间的行为结构相似性来进行聚类，同时包含对节点功能的分析。这种方法更符合社交网络中用户的实际交互特性，因此能更好地揭示社交网络中的社区结构。为了应对大规模数据集的处理挑战，研究者设计了基于MapReduce框架的分布式并行算法PDirSCAN。MapReduce是一种编程模型，适用于处理大规模数据集的并行运算，广泛用于云计算平台。通过在MapReduce框架下运行，PDirSCAN能够有效地提高算法处理性能，同时保证聚类结果的一致性。文章中提到的实验结果证实了DirSCAN算法相较于传统的无向网络聚类算法（SCAN）在F1度量上的性能提高了2.34%，PDirSCAN的运行速度比DirSCAN提升了1.67倍。这表明DirSCAN算法不仅在聚类效果上有提升，而且PDirSCAN算法在处理大规模数据集方面具有明显优势。关键词中的“有向网络聚类”指出了算法处理的主要对象是有向社交网络，强调了节点间有向关系的重要性。“并行算法”和“MapReduce”则揭示了算法在大数据环境下的处理能力。对于大规模社交网络聚类这一挑战，提出的算法和相关技术提供了有效的解决方案，为社交网络的进一步研究和应用奠定了基础。总结来说，社交网络的聚类分析是理解网络内部结构的关键途径。针对有向交互性和大规模特性，提出的DirSCAN和PDirSCAN算法是对传统聚类方法的重要补充和发展。这些算法有助于更准确地识别社交网络中的社区，为社交网络分析提供了新的工具和视角。随着大数据时代的到来，对于类似算法的需求只会越来越强烈，未来的研究可能会进一步拓展这些算法的应用范围和深度。

资源推荐

资源详情

资源评论

第 37 卷第 2 期电子与信息学报 Vol.37 No.2

2015 年 2 月 Journal of Electronics & Information Technology Feb. 2015

基于结构相似度的大规模社交网络聚类算法

陈季梦

①

陈佳俊

②

刘杰

*①

黄亚楼

②

王

嫄

①

冯霞

③

①

(南开大学计算机与控制工程学院天津 300071)

②

(南开大学软件学院天津 300071)

③

(中国民航大学民航信息技术科研基地天津 300300)

摘要：针对社交网络的有向交互性和大规模特性，该文提出一种基于结构相似度的有向网络聚类算法(DirSCAN)，

以及相应的分布式并行算法(PDirSCAN)。考虑社交网络中节点间的有向交互性，将行为结构相似的节点聚集起来，

并进行节点功能分析。针对社交网络规模巨大的特点，提出 MapReduce 框架下的分布式并行聚类算法，在确保聚

类结果一致的前提下，提高处理性能。大量真实数据集上的实验结果表明，DirSCAN 比无向网络聚类算法(SCAN)

在 F1 上可提高 2.34%的性能，并行算法 PDirSCAN 比 DirSCAN 运行速度提升 1.67 倍，能够有效处理大规模的有

向网络聚类问题。

关键词：社交网络；有向网络聚类；并行算法；MapReduce

中图分类号： TP393 文献标识码： A 文章编号：1009-5896(2015)02-0449-06

DOI: 10.11999/JEIT140512

Clustering Algorithms for Large-scale Social Networks

Based on Structural Similarity

Chen Ji-meng

①

Chen Jia-jun

②

Liu Jie

①

Huang Ya-lou

②

Wang Yuan

①

Feng Xia

③

①

(College of Computer and Control Engineering, Nankai University, Tianjin 300071, China)

②

(College of Software, Nankai University, Tianjin 300071, China)

③

(Information Technology Research Base of CAAC, Civil Aviation University of China, Tianjin 300300, China)

Abstract: To cluster the directed and large-scale social networks, a Structural Clustering Algorithm for Directed

Networks (DirSCAN) and a corresponding Parallel algorithm (PDirSCAN) are proposed. Considering oriented

behavioral relation between two vertices, DirSCAN is constructed based on action structural similarity and

function analysis. To meet the need of large-scale social network analysis, a lossless PDirSCAN based on

MapReduce distributed parallel architecture is designed to improve the processing performance. A large number of

experimental results on real-world network datasets show that DirSCAN improves performance of SCAN up to

2.34% on F1, PDirSCAN runs 1.67 times faster than DirSCAN.

Key words: Social networks; Directed network clustering; Parallel algorithm; MapReduce

1 引言

随着博客、微博等社交媒体的兴起，以用户为

节点、以用户关系为边的社交网络迅猛增长。用户

的兴趣、行为、功能等关系使社交网络中存在多个

社区或簇。为了发现网络中隐藏的簇结构，传统的

网络聚类方法主要基于链接的稠密度(link-

density)，使得簇内节点距离较近，簇间节点距离较

远，如经典的 Newman 快速算法

[1]

和 Kernighan-Lin

2014-04-22 收到，2014-08-27 改回

国家自然科学基金(61105049, 61300166)，中国民航信息技术科研基

地开放课题基金(CAAC-ITRB-201303, CAAC-ITRB-201204)，天津

市科技计划项目(13ZCZDGX01098) 和天津市自然科学基金

(14JCQNJC00600)资助课题

*通信作者：刘杰 jliu@nankai.edu.cn

算法

[2]

。然而，以上算法忽略了社交网络有向交互性

和节点具有不同功能。一方面，社交网络中的节点

关系是有向的，如微博中的关注关系，不同方向表

明了不同的兴趣信息。另一方面，社交网络中节点

具有不同功能，如连接多个簇的枢纽节点具有跨簇

传播功能；孤立的离群节点在噪音检测、流失客户

检测等任务中有重要作用。这两个结构特点对社交

网络的理解和功能发现有重要的意义。

当前的社交网络聚类方法除了传统基于链接稠

密度的方法

[1 3]−

外，还包括考虑节点功能特性、网

络的有向性等社交特性的聚类方法。另外，面向大

规模社交网络的并行聚类方法也是目前重要研究方

向之一。

文献[4]在链接稠密度的基础上，同时考虑结构

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

评论收藏

内容反馈

weixin_38548507

粉丝: 5
资源: 961

基于结构相似度的大规模社交网络聚类算法

社交网络分类算法

聚类算法中相似性度量方法的研究

基于相似度的文本聚类算法研究及应用

一种基于谱聚类的社交关系数据处理方法

各种聚类算法简介及AP聚类算法介绍

聚类算法介绍文案

层次聚类算法

hadoop实现聚类算法

基于聚类算法的大数据中密集数据算法分析.pdf

基于社交网络连接度的相似度研究

GLEAM：基于潜在游戏优化的大型社交网络图聚类框架

结构相似度

数据挖掘常用聚类算法分析与研究.pdf

复杂网络社区挖掘_改进的层次聚类算法

数据挖掘中聚类算法综述.pdf

聚类算法实现详细代码+数据集+项目

近邻传播聚类算法实现matlab

快速提升的结构相似度图像质量评价算法

复杂网络聚类方法

一种基于Python的K-means聚类算法分析.pdf

马尔科夫聚类算法

dp.zip_DP_聚类_聚类算法

聚类算法概述与应用 (2).pdf

蚁群聚类算法研究及应用.docx

最新资源