没有合适的资源?快使用搜索试试~ 我知道了~
基于集成学习的微博谣言早期检测.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 56 浏览量
2022-12-01
09:12:51
上传
评论
收藏 309KB DOCX 举报
温馨提示
试读
11页
基于集成学习的微博谣言早期检测.docx
资源推荐
资源详情
资源评论
1. 引言
谣言是广泛传播的、未经证实的陈述,其真实价值未经证实或故意为虚假的信息.中国
社会科学院发布的《新媒体蓝皮书》显示,中国有 59%的网络谣言来自新浪微博.对此,微
博于 2010 年推出其官方辟谣平台,通过人工查证识别谣言.根据新浪微博社区管理中心网
站数据显示,截止 2020 年 1 月 1 日,共辟谣 38186 条,换句话说,9 年来,平均每天辟谣
11 条,人工检测的效率可见一斑,因此,微博谣言自动检测研究逐渐成为研究热点.
本文在文献[1-12]的基础上提出基于集成学习的微博谣言早期检测方法,该方法分为
两个方面:一是通过用户历史行为分析,构建有效的检测特征;二是提出以多个异构深度
学习模型为基模型的集成学习检测模型,该模型使用随机森林算法以在基模型的输出上进
行二次训练的方式组合基模型(Random Forest stacking based on deep learning,RFS-BD).
2. 特征分析
特征分析的目的是为了选取出最有效的检测特征以提高检测效果.谣言早期检测要求尽
早进行检测,虽然微博的转发、评论等信息是非常有效的检测特征,但是由于这些信息是
在微博发布后随时间流逝而逐渐增长的,具有很大的时延和不确定性,不适用于早期检测
任务.故本文选择通过分析用户历史行为并结合微博文本进行微博谣言的早期检测.
2.1 微博特征分析
很多谣言微博在语言结构、逻辑表达等方面与正常微博有一定的差异,例如谣言微博
通常含有较多的主观推断成分、事实依据含糊不清、含有较多的口语化表述,这也就意味
着微博文本在一定程度上就表达了该条微博是否是谣言微博,因此可以通过博文分析进行
谣言检测.
通过对大量谣言微博的分析发现,大多数谣言微博的话题或者观点具有较强的情绪.如
表 1 所示,展示了谣言微博的几种类别及其示例.这些谣言微博常常具有极性情感:正面程
度很高或者很低,通常这是由谣言微博具有争议性观点所致.因为带争议性的观点能激发人
们的情绪,引起较激烈的反响
[11]
.因此,本文通过计算待检测微博的情感引入一个新的特
征:情感极性(Q).情感极性由情感计算而来,在常规情感计算中,情感值的范围为[0, 1],
较小和较大的值分别表示消极和积极,中间的值表示中性.使用公式(1)将情感值量化为情感
极性,采用抛物线公式的目的是将不连续的情感表示转化为以情感激烈程度量化的连续情
感值.
Q=4x2−4x+1Q=4x2−4x+1
(1)
表 1 谣言微博的分类
类别
示例
情感
值
揭秘
爆料
性谣
言
【赶紧防范!别出门!】河南省商丘市市政府医院,昨天凌晨 2:30,13 名男女生感染 H7N9 病毒死
亡,最大的 32 岁,最小的 5 岁
0.989
求助
性谣
言
捡到一张准考证,刘明婷,考点在一中,请朋友们转发,让刘明婷联系这个号码 15375268418,一定
帮他群发一下,这孩子一家肯定急死了,扩散,扩散,别耽误孩子高考!
0.904
伪科
普性
谣言
【为了家人和朋友,转发】如果你被匪徒挟持要求输入提款机密码,你可以用倒转输入密码的方式
去间接知会警方.例如你的密码是 1234 的话, 你可以输入 4321,提款机会识别到你是以倒转方式输
入密码,提款机会按你要求吐出金额,但是会在匪徒不知情的情况下通知警方.
0.06
事实
离奇
性谣
言
【难过】香港检测出韩国农心辛拉面向中国内地销售的产品不合格!,塑化剂超标 50 倍,接近极
限.-居然毒害害了咱那么多年阿[泪]
0.192
下载: 导出 CSV
| 显示表格
式中,x∈[0, 1],Q∈[0, 1], 且 Q 越大情感越激烈.
2.2 用户特征分析
用户特征对于谣言早期检测具有重要作用.分析发现,很多发布谣言的用户不止发布过
一条谣言,且这些用户的日常热度较高,保持热度的有效做法之一是发布具有争议性的微
博,因为带争议性的观点通常能激发人们的情绪,引起较激烈的反响
[11]
,谣言微博也被归
于此类.并且,这些用户的非谣言微博中,带有争议性观点的微博比例也要高于普通用户,
这就说明,用户发布谣言并不是偶然的,并且与之前的行为是有所关联的,因此用户的历
史行为特征就为谣言检测提供了很强的参考性.
由于带有争议性的微博的情感值通常较大或较小,因此可以选取用户的历史微博进行
情感分析,记情感值大于或小于某阈值的微博为引战微博,引战微博的总数称为用户的引
战言论数,将其作为用户的历史行为特征.由于历史微博会拥有一定数目的评论,而对微博
评论进行情感分析比直接对微博文本进行情感分析更为准确,因此,本文选择通过计算微
博评论的情感进而判断微博文本的情感.首先,计算微博评论的情感,将大于一定阈值的记
为积极评论(pos),小于一定阈值的记为消极评论(neg),且 neg、pos 均不为 0,中性评论忽
略不考虑.然后通过 pos、neg 的数量计算微博的情感极性(C).当 pos=neg 时,认为评论中的
争议最大,而当 pos→0 或 neg→0 时,认为争议性最小,因此,可以用式(2)计算表示微博
的情感极性:
C=posneg+negpos=pos2+neg2pos∗negC=posneg+negpos=pos2+neg2pos∗neg
(2)
但是在公式(2)中,对 pos 和 neg 的数量级不敏感,同时 C 的取值范围不在一个确定的
区间,不直观,因此为其添加评论数权重和归一化函数得到公式(3).
C=f(pos2+neg2pos∗neg∗f(∣neg+pos−a∣))C=f(pos2+neg2pos∗neg∗f(∣neg+pos−a∣))
(3)
公式(3)中,a 是偏置系数,用于过滤有效评论过少的数据.当 C=0 时,微博为中性,
当 C=1 时,微博情感极性最强.当 C 大于一定阈值时,可判定该条微博为引战微博.
3. 算法设计
本文的 RFS-BD 算法使用多个异构的深度学习模型作为基模型,基模型使用原始练集
做训练.选取随机森林算法作为元模型,在基模型的预测输出上进行二次训练,元模型的输
出为最终的结果,这种集成方式被称为 Stacking,已有的研究已经从理论上证明了 Stacking
的优越性
[13]
.如何选择“好而不同”的基模型,是集成学习的核心.在相关研究中,基模型一般
选取的是决策树、随机森林等树形算法,而本文则选取了深度学习算法,如 CNN,RNN,
使得检测效果得到了很大的提升.
3.1 基本定义
一条微博样本数据包含多个数据特征和一个代表其是否为谣言微博的标签.定义由特征
和标签组成的原始数据集(D
1
)如下:
D1={xij,yij}D1={xij,yij}
x
i
j
(i=1, 2, 3…m; j=1, 2, 3…n)表示第 i 个样本数据的第 j 个特征; y
i
j
表示第 i 个样本的第
j 个特征的标签, y
i
j
∈{0, 1.0}和 1 分别代表是谣言和不是谣言.
算法包含若干个基分类器 h
i
(i=1, 2, 3…T),每个基分类器接收样本数据 D
1
的某些特征,
输出为二次训练样本 D
2
,将其定义为:
D
2
={o
i
, y
i
}, 其中 o
i
={h
1
(x
i
), h
2
(x
i
)…h
T
(x
i
)},h
T
x
i
是第 T 个基模型的预测输出.
算法 1 是检测模型工作流程的伪代码描述.
算法 1 检测算法工作流程的步骤描述
输入:初始训练集 D
1
输出:集成分类模型 H
1:Step1:训练基模型
2: for t=1 to T do
3: 在 D
1
上训练基模型 h
t
4: end for
剩余10页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3552
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功