没有合适的资源?快使用搜索试试~ 我知道了~
融合源信息和门控图神经网络的谣言检测研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 138 浏览量
2022-06-10
14:14:06
上传
评论
收藏 1.32MB DOCX 举报
温馨提示
试读
30页
融合源信息和门控图神经网络的谣言检测研究.docx
资源推荐
资源详情
资源评论
摘 要 社交媒体在带给人们便利同时,也为谣言的发布和传播提供了平
台.目前,大多数的谣言检测方法都是基于文本内容信息,但在社交媒
体场景下,文本内容大多是短文本,这类方法往往会因为数据稀疏性
的问题导致性能下降.社交网络上的消息传播可建模为图结构,已有研
究考虑消息传播结构特点,通过 GCN 等模型进行谣言检测.GCN 依据
结构信息聚合邻居来提升节点表示,但有些邻居聚合是无用的,甚至
可能带来噪声,使得通过 GCN 得到的表示并不可靠.此外,这些研究
不能有效的突出源帖信息的重要性.针对这些问题提出了一种融合门控
的传播图卷积网络模型 GUCNH,在 GUCNH 模型中,首先利用消息
转发关系构建信息转发图,通过 2 个融合门控的图卷积网络模块来聚
合邻居节点信息生成节点的表示,融合门控能够对图卷积之前的特征
表示和之后的特征表示进行选择与组合,以得到更加可靠的表示.考虑
到在转发图中,任意的帖子之间都可能存在相互影响,而不仅仅是基
于邻接关系,因此在 2 个融合门控的图卷积网络模块之间引入多头自
注意力模块来建模任意帖子之间的多角度影响.此外,在转发图中,源
帖包含的信息往往是最原始、最丰富的,在生成各节点表示之后,选
择性的增强了源节点的信息以增强根源信息的影响力.在 3 个真实数据
集上进行的实验表明,提出的模型优于现有的方法.
关键词 谣言检测;传播结构;融合门控的图卷积网络;多头注意力;
源信息增强
随着互联网的飞速发展,社交媒体已经成为用户获取信息、交流
意见的主要平台,根据 Kantar Media 在 2019 年发布的一份报告,
全球 40%的人使用社交媒体
[1]
,而且这一数字还在不断地增加,这就
极大地促进了谣言的快速滋生和广泛传播,对社会稳定造成巨大的威
胁.例如据 BuzzFeed News 报道
[2]
,在 2016 年美国总统大选期间,
谣言的传播在网络上造成了不小的负面影响.2020 年 COVID -19 疫情
爆发期间,有些人在社交平台上散布一些有关疫情传播的谣言,引发
了人们的不安.谣言的迅速传播,已经开始从各个方面影响人们的正常
生活,因此,谣言检测是一个亟待解决的关键问题.
然而,谣言检测是一项非常有挑战性的任务,主要体现为 3 个方
面:1)谣言具有强迷惑性和误导性,使得单独从谣言文本内容本身检
测谣言存在困难.因此除了从谣言本身的内容信息出发,我们还应该探
索和利用其他信息,如社交媒体上的用户信息以及社会上下文信息 .2)
早期检测的需求.社交媒体上的用户较为活跃,使得谣言能够在短时间
内广泛传播,谣言造成的负面影响随之剧增,使得早期检测尤为重
要.3)谣言的传播过程复杂多样
[3]
,数据流动没有固定的规律,谣言内
容涵盖的方面非常大,使得数据的处理和使用成为一大困难.
为了有效检测谣言,人们已经做了大量的研究,常见的方法利用
文本内容进行谣言检测,研究人员从文本内容中提取一些低级特征如
n-gram,TF-IDF,bag-of-word
[4-6]
和一些高级的特征如文体特征、事实
主观性、写作风格一致性
[6-8]
等,然后将这些特征应用于机器学习算法
进行谣言检测.这些方法基于手工构建的特征,特征提取类别较为单一,
无法很好的应对复杂多变的真实环境.深度学习不依赖于手工特征的构
建,而且还能提取得到高层次的特征表示.近年来,研究者开始利用深
度学习方法建模文本语言
[9-11]
、文本结构
[12-14]
等,取得了非常好的效果.这
一类方法需要较长的文本才能够训练得到好的特征表示以提高检测效
果.但是社交媒体上,人们发表见解的帖子通常是较短的文本
[15]
,这就
可能影响基于内容的方法的检测性能.此外,还有方法利用参与社交媒
体的用户信息来检测谣言
[16-17]
,这些方法受到现实场景的限制,出于隐
私考虑,用户的真实信息往往难以获得.研究者们开始关注于利用社交
网络上的传播信息进行谣言检测,一些研究利用传播路径构建传播树
然后利用长短期记忆(long short-term memory, LSTM)网络、门控
递归单元(gated recurrent unit, GRU)来学习传播过程中的序列特
征
[18-19]
,但是传播的序列特征无法反映传播内部的结构信息,此类方法有
一定的局限.图卷积网络(graph convolutional network, GCN)
[12]
的
诞生,为我们提供了很好的思路,最近的一些研究使用 GCN 解决谣言
检测问题
[20-21]
并取得了较好的效果.
受上述研究启发,社交媒体上的消息转发可以建模为图结构,图
1(a)展示了来自公共数据集 Fake-NewsNet 的一条“凯瑟琳生下第 3
个孩子后 5 个小时就出现在伦敦一家医院外”
(1)
<https://twitter.com/CNN/
status/988463960159608833 的谣言以及它的转发路径,根据图 1(a)的
转发关系可以得到如图 1(b)所示的转发图.消息转发图中某一帖子的上
游信息和下游信息对于研究当前帖子都非常重要,我们认为这样的转
发图中蕴含着丰富的结构关系可以为谣言检测提供帮助.另外,转发过
程是一种信息逐步扩展的过程,源帖表达出最原始且最重要的信息,
更好地利用源帖的信息对于谣言检测至关重要.
Fig. 1 Construction of forwarding graph in social media environment
图
1
社交媒体场景下的转发图的构造方法
本文主要研究:1)如何有效地利用转发图来整合复杂的转发结构
信息用于分类;2)如何更好地利用源帖的信息以提高谣言检测的性能.
为了解决这 2 个问题,提出了一种谣言检测模型 GUCNH.首先,我们
利用社交网络中帖子的转发关系构造转发图,然后提出了一种融合门
控的图卷积网络模块用于捕获转发图中的各节点之间的结构信息,融
合门控的目的是对图卷积之前的特征表示和之后的特征表示进行选择
与组合,以得到更加可靠的表示.为了更好地利用源帖信息,我们在源
帖对应节点的原始表征和通过融合门控的图卷积网络模块之后得到的
表示之间进行选择与组合,将选择后的结果与每个节点的表征拼接.最
后将所有节点表征取平均用于分类.本文工作的主要贡献可以概括为 3
个方面:
1) 提出了一种融合门控的图卷积网络模块 GUCN,该模块通过门
控单元来对图卷积之前的特征表示和之后的特征表示进行选择与组合
以得到更加可靠的表示.通过该模块来捕获转发图节点之间的结构关系,
并结合多头自注意力模块来考虑任意节点之间可能存在的影响,最终
生成节点表示.
2) 源贴信息往往最为重要,为了充分利用源贴信息,在生成节点
表示之后,模型将经过选择的源贴特征表示与转发图中生成的所有节
点表示拼接起来,以加强源帖的重要性.
3) 在 3 个真实的数据集进行了一系列的实验.实验结果表明:本模
型在谣言分类和早期检测任务方面都取得了优于现有模型的结果.
1 相关工作
谣言检测的目标是根据用户发布在社交媒体平台上的相关信息 (如
文本内容、用户配置文件、评论、传播模式等)来检测谣言的真假.根据
研究对象的不同,相关工作可以大致的分为 3 类:1)基于内容的方法;
2)基于用户的方法;3)基于传播的方法.
1) 基于内容的方法.基于内容的方法主要依赖于文本的内容信息来
检测谣言,这些研究通常面向于长文本数据.一部分研究者从机器学习
的角度进行谣言检测,Pérez-Rosas 等人
[22]
从新闻中提取手工特征建
立组合特征集训练线性支持向量机 SVM 模型用于谣言检测;Popat 等
人
[7]
通过研究文本内容的语言风格来进行谣言检测;Takahashi 等人
[23]
剩余29页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3552
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功