没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
1 引言
随着 的发展,一系列新的社交网络正在迅速兴起。尽管此类网络
相对较新,但它们吸引了很多用户来分享其观点和感受,在社交网络上实时讨
论真实生活中发生的焦点、热度高的事情成为许多用户的一种趋向性消遣,并
且他们对事情发表带有主观性、影响力较强的评论,使现实生活中的突发事件
在社交虚拟网络上爆发的时间往往比官方发布新闻的时间更早
。具有用户发布
内容的社交媒体和在线服务已经生成了数量惊人的信息,这些信息在事件分析
和应急管理等各个领域都有潜在的应用
。突发事件在微博和微信等社交网络上
迅速发酵
,其突发性影响了后续的应急处理,包括舆论以及救援等。通过从
紧急灾难等事件检测模型发出大量及时、准确的警报,可以帮助人们迅速采取
行动,以减轻损失。因此,在各种突发事件发生后,通过社交网络实时监测事
件的演变情况,并采取相应措施控制其发展对舆论指导具有重要意义。
随着时间的推移,控制突发事件的进一步扩大将有助于决策者分析整体情
况,并根据演变过程做出正确的决策。在这种情况下,有必要确定关键事件并
通过时间表对其进行控制,可以通过提取和分析与社交事件相关的微博来获取
时间信息
。微博平台可以充当信息源,使个人、公司和政府组织可以随时了解
“当前情况”和“人们对它们的看法”。检测突发事件和用户对其的看法至关重要,
因为它们可以带来宝贵的信息。例如,公司可以使用这些信息来分析用户对其
产品(或竞争对手)的看法,以回应用户的投诉并改善决策。与传统的信息传
播渠道相比,在社交网络上检测获得的突发事件能使人更快地了解到事件的详
细发展情况,以便相关部门迅速采取应对策略,这具有重要的现实意义。本文
围绕微博突发词提取及多归属谱聚类检测 个核心内容,开展了微博社交网络
突发事件检测的研究,主要创新点如下。 在突发词提取上,根据微博的时空
特点,在综合考虑博文内容及社交关系的基础上,利用词频增长率特征、用户
影响力及词权重 类指标,提出了新颖的突发词提取模型;在突发事件检测
上,针对突发事件检测中参数过多的问题,将文本处理转化为图划分,从特征
关系图的角度出发,基于事件突发特征的相似性和共现性构建词关系图,对突
发事件进行检测。
2 相关研究
由于本文结合文本和词相关性特征来检测突发事件,因此相关工作集中在
文本分析、突发特征分析以及用户特征分析等用于突发事件检测的方法。当前
的核心问题和挑战是如何快速、准确地从指数增长的数据中检测到突发事件。
现有的突发事件检测方法主要分为 类。
以文本为中心。将文本语义之间的相似程度通过相关方法度量为距离对
文本进行聚类分析,根据聚类结果检测突发事件。该方法将单词的时间序列离
散为一小组级别,记录每个单词和每个单词对的出现次数。然后通过滑动时间
窗口将共现标记聚类,形成候选事件簇,对满足相应突发规则的类进行突发事
件的识别
。李莹莹等
通过聚类定义了有关事件的隐式语义信息,以引入相
关事件,对具有相同主题的意外事件进行聚类,该聚类是在监视事件演变的社
交网络中进行的。张婧丽等
通过计算事件检测标签的文本框架类型相似度方法
来识别框架,从而检测出一种紧急情况,并改进紧急情况触发词的识别,能更
正确地识别触发词,有效提高识别率。陆垚杰等
基于不确定的语言变量构建突
发事件模型,减少了文字语言的干扰,从文本的语法和语义 个角度进行研究,
使突发事件的检测模型更具准确性。等
提出了一种改进的术语频率逆文档
频率( !"#$!%&'("! !"# )算法,称为 )
,用于根据时间分布信息和用户注意来查找热门术语,从而实现对新闻
中热点话题的检测。但是,由于微博文本含有大量的口语单词、网络短语、广
告、链接和其他垃圾邮件信息,在对数据信息进行聚类分析和计算词语相关突
发特征时,引入过多无用信息会对其造成噪声干扰。另外,对微博文本进行聚
类分析时,需要对一些参数阈值进行调试以达到最好的实验效果,但一般都是
以研究的相关经验设定参数阈值,并且阈值选择的质量会直接影响聚类的结果,
从而对检测的准确性产生影响。
以突发特征为中心。这类方法首先获取与突发事件相关的微博内容特征
然后对得到的突发事件相关特征进行聚类分析,最后根据聚类算法的结果获取
突发事件的相关信息。张鲁民等
在微博上建立了一个情绪符号模型,以确定一
般情况下网民的情绪可以控制事件传播的程度,紧急情况的发生导致相关事件
的信息量迅速上升,网民的情绪也随着评论起伏不定。因此,对微博的原始文
本和评论内容进行情感分析可以显著提高紧急事件检测的准确性,但只考虑网
民的情绪变化还不够全面。仲兆满等
考虑到地域突发特征,构建了基于网络地
域 的 突 发 事 件 检 测 方 法 , 但 是 该 方 法 检 测 不 到 没 有 地 域 突 发 特 征 的 内 容 。
*+,'!
引入网页排名的方法,对用户影响力的比值进行计算,并提取了突发
词特征来发现突发事件。该方法引入了用户影响力因素,但是一些僵尸用户以
及“水军”也被引入,增加了噪声信息。 ( 等
提出了一种结合情感和主题标签
的模型,以在线检测微博流的中文突发事件,但在没有任何标签的情况下,这
种方法将失败。张仰森等
提出了基于最小代价函数的目标检测与跟踪融合算法
对突发事件进行检测,以降低检测的错误率。该算法能够自适应地调整跟踪参
数的大小,并在丢失目标后重新捕获目标,它可以同时满足多个事件的检测跟
踪。+!- 等
提出了一种基于突发项值计算和伪突发项识别的突发主题检测
(.&#'"$(!+!'$,+$(! )方法,通过使用术语的基本权
重和突发权重来提取突发项,并通过分析术语的新颖性来过滤伪突发项,但没
有对无效突发项进行过滤。
以用户行为特征为中心。对用户在社交网络的行为数据进行分析,在突
发事件检测系统输入用户行为数据,判断系统检测的结果是否与现实事件基本
相同。/0+等
对 条独特的推特信息进行了特征分析,以了解伪造图
像传播的时间、社会声誉和影响模式,并利用用户行为特征和文本特征构建分
类器进行研究,结果显示,在 位用户中,排名前 位的用户(%)
导致了 %的伪造图像转发。+!-等
研究用户转发行为,提出了一种基于
多 层个 人信息 ( 1,$,+#'$!'$%$'+,$!(+$(! ) 和 动态 时间 序 列
(2'#!+$"$&$&)算法的用于谣言事件检测的新型两层门控循环单
元(/34-+'"!!$)模型,称为 12/34。在新浪微博数据
集上的实验结果表明,12/34 模型达到了 %的高精度。赵海林
提
出了一种基于用户行为特征的监督式机器学习事件确定方法,利用从推文文本
和元数据中提取的统计特征,并在突发序列中将推文簇的特征对应于紧急情况
确定,以实现分类器。但是有许多用户行为与国家安全无关,这将延迟紧急情
况的判断时间。介飞等
针对网络媒体的突发问题隐式事件,根据检测到的事件
来分析突发社会行为特征,引入关键词功能,动态调整每个候选关键词的时间
窗。不同事件具有不同的关键词功能绑定,避免了事件之间的干扰,准确地识
别了隐性突发事件,但对于单词中的巨大语义变化并不适用。
为了解决这些问题,本文提出了一种结合词语相关特征和多归属谱聚类算
法检测突发事件。首先,按时间顺序对爬取的微博数据进行分段,利用连续时
间划分数据切片,计算每个时间片段的数据信息的各词语的词频特征、用户影
响力和词频增长率特征,运用突发度计算方法来提取突发词。然后,利用特征
相似性对提取突发词进行矩阵构建,转化为词语关系图。最后,运用多归属谱
聚类算法对单词关系图进行最优划分,并在时间窗滑过时关注异常词语,通过
子图中词语突发度的变化而引起的结构变化对突发事件进行判断。基于突发事
件的检测模型流程如图
所示。
图
图 1基于突发事件的检测模型流程
3 基于突发词相关突发特征提取模型
文本预处理
在进行事件检测之前对文本进行预处理能够使检测的结果更加准确。文本
预处 理首先 进行噪 声过滤 ,采用 5673 (!++,,+!-+-0("&&$!-+!'
$!(+$(!$%+,)分词系统过滤掉无用文本,包括去除不含事件三要素
的博文、粉丝数在某一阈值以下的用户,以及文本中包含的图片网址链接、表
情符号等。其次使用 .(&(!567 情感词典
过滤掉含情感的词语,如式8所
示。最后对文本进行规范。
28!9:;$90(&$$%0(&$$%<=('8;$>:;?9!-+$%!-+$%<=('8;?
8
其中,28!为词语的情感度,0(&$$%<=('8;
$
为积极正面的情感词语数
量,!-+$%<=('8;
?
为消极负面的情感词语数量。
突发词特征的分析与表示
词频增长率特征
在一个时间窗口内,词频特征在单词频率特性中考虑了高频单词,但没有
考虑单词频率的变化趋势。如果某个事件刚刚发生,突发的单词只在
$
时间窗
口涌动,就不能通过单词频率以及引入的增长率来重新提取突发正确的单词,
以识别意外单词。本文综合一些研究方法,计算词语在某段时间
的频率与之
前的平均历史频率 )
8;之和。
)8;9)@8;
>8;@)@8; 8
其中,
8;表示词 ; 在时间窗
下的词频。根据式8,对多个连续时间
段的词语计算平均增长率,能够显示出单词频率的波动趋势。
用户影响力
一般来说,拥有众多粉丝的用户发布的微博会更具影响力,相应地这些用
户讨论的事件有很大的潜力能成为突发事件,这会使计算出的突发度不够准确,
少数高影响力的用户会成为主导因素,一些普通用户的影响力会被大幅度减弱。
综上所述,本文采用归一化的方法计算用户的影响力,定义用户 A9830B(
+!#040'+,如式8所示。
!"#$
%.A9830A>B(A+!A#0A40'+A 8
其中,30 和 B( 分别表示用户一个月之内转发和评论微博数量;+! 表
示用户的粉丝数量;#0表示用户的类型,不同的类型权重不同,官方认证的
微博权重为 ,“大 CD即粉丝数量多的微博权重为 ,普通用户的微博权重为
;40'+ 表示用户一个月之内的更博数,最小值不能为零。
在社交网络上,用户的粉丝数量越多,影响力越大,如明星所发布的微博
在几分钟内就有可能被几十万人看到。因此,影响力越高的用户对事件传播速
度的贡献越大,其中出现词语描述突发事件的可能性也越高。
词权重的计算
在突发事件中,与事件有关的微博会呈井喷式爆发,突发词会频繁地出现
在同一事件的不同文本中
。在微博短文本中,传统 方法难以衡量关键
词与普通词语的差异性,因此采用文献
中的文档频率倒文档频率(
'("! !"#$!%''("! !"# )词权重算法。对于网络
热议的话题,单词的 会上升;若发生突发事件,单词的 会呈指数形式上
升。该算法弥补了 方法的缺点,能准确地计算词权重。
&'(')*')++++++
,?9'$'?E9'?,(-8>'?EF 8
式8为单词 ? 第 天的词权重,与传统 不同,本文 只限于近期
微博(不超过一个月),为第 EG 天内单词 ? 的平均 ,其 -!../../9H
I?HIJ,/I? 表示第 天包含单词 ? 的博文。由于一般社会事件的关注度都会随
着时间而降低,不会超过两周,因此单词的时间段 E 被设置为 。
突发度计算方法
为了能更好地得到一个突发词,综合用户影响力和突发词的重要性,突发
度的计算式为
'010&'2=('?95:K9@5@8?)8;2
343'*53&'11343'1*535
6:7!4+7?,8.7!@?K)K8;:7!4+7?K,8.7 8
其中,=('J
?
是单词 ? 在时间窗 内的突发度;35.7 是包含单词 ?的一
条微博的发布者 0
!
的影响力;7
?
是在时间窗 内包含单词 ? 的所有微博;5 是时
间窗的总数。突发度值高的被提取为突发词。
4 突发事件检测
词语关系图构建
为迅速获取每日事件的信息,需要选取用于构建关系图的突发词集合,利
用突发词集合构建词语关系图。根据上述突发词的提取方法,按突发度的高低
排序,选择突发度高的 ! 个词语,过滤了含大量与事件无关的词语。
假设从文本流中连续获取边缘序列,词关系图是无向的,定义为
78
(
9':
)
;J/9(CL) 8
剩余21页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3683
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功