没有合适的资源?快使用搜索试试~ 我知道了~
社会媒体大数据分析研究综述_杜治娟1
需积分: 0 2 下载量 144 浏览量
2022-08-03
14:13:23
上传
评论
收藏 3.4MB PDF 举报
温馨提示
试读
23页
引言近十几年来,在线社会网络越来越流行,如博Google+、LinkedIn 以及具有强媒体性质的微博等。它们快速增长并允许用户连接、互动、共享和合作,创建了一
资源详情
资源评论
资源推荐
社会媒体大数据分析研究综述
*
杜治娟
+
,王 硕,王秋月,孟小峰
中国人民大学 信息学院,北京 100872
Survey on Social Media Big Data Analytics
DU Zhijuan
+
, WANG Shuo, WANG Qiuyue, MENG Xiaofeng
School of Information, Renmin University of China, Beijing 100872, China
+ Corresponding author: E-mail: nmg-duzhijuan@163.com
DU Zhijuan, WANG Shuo, WANG Qiuyue, et al. Survey on social media big data analytics Journal of Fron-
tiers of Computer Science and Technology, 2017, 11(1):1-23.
Abstract: Social media, which consists of a large number of meaningful information, is an important way for people
to propagate information and express themselves. In recent years, it has become one of the most representative
sources of big data. Mining and analyzing the information has profound impact on social development. According to
the elements of social media, the current researches are divided into three categories, including analysis based on users,
analysis based on relationships and analysis based on interactive contents. Firstly, analyzing user-centered data from
user identification based multi-source heterogeneous network, community detection and user influence computing.
Secondly, analyzing user relationship strength calculation, information diffusion and influence maximization issues
based on interactive relationship-center. Thirdly, discussing feature extraction and selection, the topic or event mining,
multimedia data analysis and sentiment analysis issues based on user interactive content analyzing interactive
content-centric. Finally, this paper elaborates challenges of mining big data of social media and points out the future
work from information diffusion, influence computing, feature extraction and selection, news mining based on
Microblog, social media big data fusion and cross-lingual sentiment analysis 6 aspects.
* The National Natural Science Foundation of China under Grant Nos. 61379050, 61532010, 91224008, 61532016 (国家自然科学基
金); the National Key R&D Program of China under Grant Nos. 2016YFB1000602, 2016YFB1000603 (国家重点研发计划); the
Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No. 20130004130001 (高等学校博士
学科点专项科研基金); the Research Funds of Renmin University under Grant No. 11XNL010 (中国人民大学科学研究基金).
Received 2016-01, Accepted 2016-09.
CNKI网络优先出版: 2016-09-08, http://www.cnki.net/kcms/detail/11.5602.TP.20160908.1045.002.html
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2017/11(01)-0001-23
doi: 10.3778/j.issn.1673-9418.1601037
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel: +86-10-89056056
Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2017, 11(1)
1 引言
近十几年来,在线社会网络越来越流行,如博
客 ,以 照 片 共 享 为 主 要 功 能 的 Flickr、Facebook、
Google+、LinkedIn 以及具有强媒体性质的微博等。
它们快速增长并允许用户连接、互动、共享和合作,
创建了一个新的强大的通信媒体和信息发现、共享
平台
[1- 2]
。平均而言
[3]
,Facebook 的用户每人每月花
7.75 小时与朋友进行交流,每天发帖 32 亿,而 Twitter
每天发帖 3.4 亿,Flickr 每分钟上传 3 000 多张照片,
博客每年发帖量也超过 1.53亿。
社交网络的快速、深度发展使其自身变得越来
越庞杂。当前社交网络用户过亿,社交图谱异常庞
大,如 RenRen社交图谱
[4]
有 75.33 万条边、2.74万个可
见交互图、24.1 万个隐性交互图;用户在不同的社交
媒体中持续交互;各种信息在多种社交网络中快速
传播。这些特点给社交网络的研究带来巨大挑战。
虽然社交网络形形色色,但它们都由用户、关系和内
容组成。因此,本文从用户、关系和内容三方面分析
现有研究,如图 1所示。
从用户层面上看,活跃用户是社交网络的核心,
主导整个社交网络的交互。社会媒体中的用户可分
为博主、关注对象和粉丝,可以进行发布、关注、转发
(RT)、提及(@)、回复和评论操作,并且同一个用户
可以参与多个社交网络的互动。因此,以用户为中
心的研究主要集中在:(1)从多源异构网络中识别用
户身份,判断用户角色,可以借助 URL、提及等分
析。例如利用 URL判断与其他社会网络连接情况
[5]
,
使用@提及属性的出入度判定不同角色的用户
[6-7]
等,
对于用户信息的融合非常有用。(2)人以类聚,物以
群分,当社交网络中用户在某段时间内互动形成具
有稳定群体结构、一致行为特征和统一意识形态后
他们就会形成社群
[8]
。这对于研究人的群体特征、行
为规律等非常有用。(3)各行各业都有具有影响力的
人物,社交网络中也不例外,用户影响力计算
[9]
、意见
领袖发现
[10]
在推荐系统、病毒式营销、广告投放、信息
传播、专家发现等多个领域广泛应用
[11]
。
从交互关系的层面看,用户之间存在关注关系、
传播关系和互惠关系。其中,关注关系由粉丝行为
引起,可用于影响力分析
[12]
,关注关系引发了用户的
Key words: social media; big data; user behavior; interactive relationship; interactive content
摘 要:社会媒体作为人们传播信息和表达观点的重要渠道,包含大量丰富的有用信息,近年来已成为大数据
最具代表性的数据来源之一,挖掘与分析这些信息对社会发展影响深远。按照社交媒体的构成要素将目前研
究划分为 3 类,即从基于用户的分析、基于关系的分析和基于交互内容的分析三方面进行总结分析。首先,从
多源异构网络中识别用户身份,发现社群并计算用户影响力来分析基于用户的数据;其次,从用户关系强度计
算、信息传播和影响力最大化 3 个角度探讨了基于交互关系为中心的数据分析;然后,基于用户交互内容探讨
了特征提取与选择、话题事件挖掘、多媒体数据分析以及情感分析 4 个问题。最后,从信息传播、影响力计算、
特征提取与选择、微博新闻挖掘、社会媒体大数据融合和跨语言情感分析 6 个方面指出了现有研究的挑战性和
未来研究的新视角。
关键词:社交媒体;大数据;用户行为;交互关系;交互内容
文献标志码:A 中图分类号:TP393
Fig.1 Typical characteristics for social media big data
图 1 社会媒体大数据典型特征
2
杜治娟 等:社会媒体大数据分析研究综述
网络弱关系性和聚类性
[13]
;传播关系由转播、提及和
内嵌的 URL 引起,具有更强的话题关联性
[14]
;互惠关
系由评论、回复引起,是传播关系的特殊情况。这些
研究的基本依据是信息学的传播,它们的价值更多
地体现在商业价值和政治价值,比如研究用户及用
户群体的传播能力和权威性,可以选取出有传播力、
影响力的用户组成初始种子集合,使信息得到最大
化的传播;与此同时,各方的利益也将不同程度地得
到最大化,利益双方可以从社会网络关系的广度和
深度采取不同措施制约对方发展或提升自身利益
[15-16]
。
从用户交互内容看,用户交互的内容不仅有文
本信息,还会包含大量的地理位置、图像和视频等多
媒体信息,并且在这些信息中还会包含情感信息。
因此,社会媒体的价值体现在:(1)利用位置信息、社
会媒体的动态性和时效性分析多媒体数据。(2)从交
互内容中分析情感有助于提取不同领域的公众情绪
和意见,可以确定民意调查的影响
[17]
,有效解释和描
述政治事件
[18]
,预测股票趋势
[19]
等。但是微博讨论的
话题不拘泥于任何方式,可变性大,这种互动引发公
众情绪的不断变化,挑战性变大。(3)碎片信息的关
联与整合,由于海量的不同文化背景的各种思维在
交互中相互交融,使原本碎片状的信息以话题事件
的方式相关联,进而汇聚为思想流。这种思想流看
问题的角度各异,也更能显现出事情的本来面目。
但是微博的短文本、多语言背景
[20]
,以及口语化、错误
拼写和缩写、使用特殊符号等对内容的理解造成很
大挑战。#标签、转播、提及、URL等可以辅助分析内
容
[21]
。比如利用#标签收集特定话题和事件的信息
[5-6]
,
提高检索性能和进行语义分析
[14]
等。使用转播估计
话题兴趣度或博文重要度
[7,20]
,提及查找具有特定兴
趣的个人或特定话题的视图
[22]
,使用 URL 计数度量
事件流行度
[14]
等。
由此可见,社会媒体大数据中潜藏着大量有价
值的信息,挖掘过程面临很多挑战。因此,本文第 2、
3、4 章分别基于用户、交互关系和交互内容三方面综
述现有研究工作;第5章指出面临的挑战和新问题。
2 基于用户的分析
社会网络中基于用户的研究包括多源异构网络
中用户身份识别、社群发现和用户影响力计算。
2.1 用户身份识别
在线社会网络可看做异构信息网络,其中的信
息通常包括时间、地点、人物、事件等,而用户往往同
时存在于多个不同的社会网络中。由于异构的特
点,导致同一个人在不同的网络中会呈现一定的差
异,如何在此种情况下识别这个人的身份成为近年
来异构社会网络研究的一个热点。文献[23]提出了
跨异构社会网络的用户身份识别方法,如图 2所示。
用户身份识别主要思想是用户匹配的推理策
略,在一对一匹配条件约束下,通过扩展 Jaccards 系
数和扩展 Adar 度量来对文本内容、空间分布、时间分
布等多个特征进行分析。类似的,也可以采用协同
分割模型
[24]
来解决在多个大规模社会网络上处于不
同网络中的相同身份的辨识问题。该方法主要利用
图论知识,对一个社会网络的拓扑进行平衡化分割,
从而在不同的网络中发现相同的分割规律,进而实
现身份对齐。文献[25]受力的相互作用和能量守恒
原理的启发,提出了基于能量方程的 COSNET 模型,
采用的方法分别是无监督成对网络对齐和传递集成
网络对齐的方法,分别从局部一致性和全局一致性两
方面来分析异构网络环境下的用户匹配问题。
以上这些都是针对非匿名网络的,实际的匿名
网络中用户的身份识别问题也很重要,因此,文献[26]
针对匿名社会网络设计了一个无监督的多网络对齐
模型,能够解决匿名网络中用户信息和锚链接缺失
的问题。总之,以上方法考虑到异构网络的特点,挖
掘同一身份在不同网络中的共性,从而完成身份识别。
2.2 社群发现
社群是指用户在某段时间内互动形成的具有稳
定群体结构、一致行为特征和统一意识形态的个体
和社会关系的集合。社群内部用户关系强度强,聚合
强度大,而社群之间用户关系强度弱,离散程度大
[27]
。
社群挖掘的目的在于从用户的行为、群体结构和关
系模式中发现潜在的规律。
社群结构按照用户社会关系和对文本内容的兴
趣度划分为两种
[27]
:(1)以用户个体为中心的社群结
构。由微博主、粉丝、好友及具有相同#标签或兴趣
3
Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2017, 11(1)
度的用户组成,其主体微博主一般影响力较大,充当
意见领袖的角色,其他用户对微博主的某条博文进
行评论、转发,这种结构随着微博主的威望或博文热
度的降低而减弱。(2)以话题为中心的社群结构,以
话题内容为中心,聚合大部分兴趣爱好相同或具有
相同#标签的用户,他们讨论的主题大多以时效性较
强、关注度较高的热点话题为主,社群成员地位平
等,分布均匀,这种结构随着话题的结束而消失。
早期社群划分以静态划分为主,采用基于图聚
类的方法和基于相似度计算的方法。基于图聚类的
方法采用图建模复杂网络,通过计算节点相似度,按
照子网内部节点相似度高,不同子网中节点的连接
数最少的原则划分网络,每个子网记为一个社群。
大部分算法采用迭代二分的方式寻找二分网络各自
的最优化分解以获得满足条件的子图。比较著名的
有 Kernighan-Lin 算法
[28]
和基于图的 Laplace 矩阵特征
向量的谱二分法
[29]
。基于相似度计算的方法是根据
网络中节点间的相似性或者连接的强弱来决定是否
保留或删除边,实现网络群体的重构。GN 算法
[30]
、
Newman 的快速算法
[31]
等都是这类方法的代表。此
外,用户个体同一时间可能以不同身份出现在不同
的社群,因此出现了重叠社群发现
[32]
,后来演变出了
动态社群发现
[33]
。它根据信息资源和网络结构进行动
态稳定的变化规律划分,如从分组群和个体两个层
次进行动态规划,或者依据当前社群结构约束、历史
演变模式和特定时刻单节点的多社群属性进行划分。
2.3 用户影响力计算
影响力计算对单个用户的影响力进行衡量,通
常采用节点权重进行表征。目前主要从网络拓扑结
构、个体及其关系特征和信息传播结构 3 个角度来研
究,其中,从网络拓扑结构出发的方法如表 1所示。
根据网络拓扑结构可以将影响力分为节点的影
响力和边的影响力。表1中节点度分为节点的入度
[34]
、
出度
[35]
和度中心度
[36]
。其中出入度是有方向的,表示
信息传播的方向,出度度量邻居节点对当前节点的
影响力,入度反之,而度中心度度量的是当前对邻居
Fig.2 Identification schematic
图 2 身份识别示意图
4
剩余22页未读,继续阅读
葡萄的眼泪
- 粉丝: 15
- 资源: 303
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0