融合元路径学习和胶囊网络的社交媒体谣言检测方法.docx资源-CSDN文库

版权申诉

40 浏览量 2022-12-15 14:20:31 上传评论收藏 186KB DOCX 举报

资源推荐

资源详情

资源评论

社交媒体的快速发展为人们提供了获取、处理和共享信息的便捷平台，促进了海量信

息的传播和扩散。其中，谣言的传播会带来不可逆、破坏性强、影响极广的负面影响

[1-2]

。

谣言的自动识别有助于早期预防、减少损失，因此，谣言检测技术

[3]

应运而生。

早期的谣言检测方法主要采用监督学习

[4-6]

，利用特征工程从文本内容

[7-9]

、用户信息

[7]

和传播模式

[10-13]

中提取可区别的特征，如传统机器学习模型

[4]

。随着深度学习模型的出现，

基于 RNN(recurrent neural network)、CNN(convolutional neural network)和 AE(autoencoder)

的方法在特征提取上有所改进，在情绪分析、机器翻译、文本分类等方面均取得了显著成

果。文献[10]利用递归神经网络捕捉微博中谣言源帖及其转发帖的语义差异，从而根据语

义的变化进行下一个传播点的预测。这是首个引入深度神经网络捕获谣言在整个传播过程

的潜在时序变化的研究。文献[14]基于树的递归神经网络模型以捕获谣言在传播结构中的

潜在语义信息特征。文献[15]使用一种变分自动编码器(variational autoencoder, VAE)获取帖

子涵盖的文本特征和图像特征，以确定该帖子是否为谣言。文献[16]将源帖的传播路径建

模为一个多元时间序列，利用 RNN 和 CNN 捕捉相关帖子参与者的用户特征沿传播路径的

变化。上述模型多采用单一的文本内容检测模型，忽略了社会网络结构信息。此外，部分

方法仅从信息个体角度进行考虑，忽略了社交网络信息之间所存在的结构相关性。如果同

一用户发布或转发了多个帖子，则可以连接这些帖子。这样的关联可在连接的实例之间共

享知识，帮助彼此检测以提高性能。

近年来，GCN(graph convolutional networks)从信息结构化的度检测谣言和假新闻。如

文献[17]建立了一个深度扩散网络模型，学习新闻文章、创建者和主题的融合表示，挖掘

社交网络的结构性特征。此外，信息在社交网络上的传播过程所构成的图网络具有异质

性，从异构图的构建与分析角度可有效提高虚假信息检测模型的性能。如文献[18]通过从

社交网络上的帖子、评论和相关用户构建的异构图中，捕获图结构中的语义信息。虽然目

前 GCN 和异构图网络在谣言检测方面性能表现良好，但仍存在部分问题。首先，GCN 针

对图中每个学习到的节点表示采用的是标量式编码，需要逐一编码节点包含的所有属性，

当数据量过大时，效率会大大降低。其次，现有异构图网络着重强调谣言传播过程的文本

内容语义变化，忽略了用户之间的社交关系，在一定程度上对检测模型的性能进行了限

制。此外，目前已有的谣言检测模型，对社交网络的异构性研究缺乏用户之间社交关系的

考虑，而在真实的社交网络中，社交关系是一个较大的影响因素。

针对上述问题，本文提出了一种融合元路径学习和胶囊网络的社交媒体谣言检测方法

(rumor detection based on meta-path learning and capsule network, CNMLRD)，联合图嵌入和

文本内容语义嵌入两方面对谣言在社交网络上的特征学习进行表示，利用胶囊网络以矢量

编码增强学习到的特征。该方法首次将胶囊网络矢量编码模型用于谣言早期检测中，针对

传统神经网络本身特性导致的检测模型编码效率低下的问题提出了一种新的解决思路。此

外，该方法涉及基于元路径学习的异构图分解模型，实现了对用户潜在社交关系及图结构

的全局语义信息挖掘，不仅提高了谣言早期检测模型的效率和精度，并在一定程度上增强

了模型的可解释性。

1. 问题描述

为了准确描述面向社交网络的谣言检测问题，对以下概念进行定义。

定义 1　社交媒体关系：定义为社交传播实体与其对应的传播内容的集合

S={e1,e2,⋯,es}S={e1,e2,⋯,es}，其中 eses 指第 ss 个社交传播实体和其所传播的内容。

定义 2　社交传播实体：在社交网络中参与了发表、转发和评论帖子等行为的用户个

体，用集合 U={u1,u2⋯,un}U={u1,u2⋯,un}表示，其中 unun 表示第 nn 个用户实体。

定义 3　传播内容：用户所发表的帖子，并且这些帖子至少会有不少于 1 次的转发和

评论，用集合 T={t1,t2,⋯,tm}T={t1,t2,⋯,tm}表示，其中 tmtm 表示第 mm 个帖子实体。

定义 4 　异常传播实体：以用户是否发起或转发过一条谣言帖子作为评判标准，将用

户分为正常用户和异常用户。

根据以上概念，可以构建基础社交信息传播网络，并利用异常传播实体的评判标准将

基础社交信息传播网络转化为异构图网络，然后采用图神经网络模型得到每一个传播实体

与传播内容的低维向量特征表示，谣言的潜在特征可以结合信息在社交媒体网络上的结构

特征以及信息内容的文本语义特征得到。

综上，本文将谣言检测任务看作二分类问题，目标是训练一个模型 f(⋅)f(⋅)以预测一个

给定信息的标签 f(ti)f(ti)，若 f(ti)=1f(ti)=1，则 titi 为非谣言；f(ti)=0f(ti)=0，则 titi 为谣

言。

2. 方法介绍

2.1 总体框架和流程

整个模型框架如图 1 所示，主要包含 4 个模块：用户−帖子异构图构建模块，图节点

结构特征胶囊模块、文本内容特征胶囊模块以及特征融合模块。其中，用户−帖子异构图

构建模块主要是完成对原始数据集的清理及预处理，再依据应用场景的需求构建适当的异

构图；图节点结构特征胶囊嵌入模块主要是利用图卷积胶囊网络将异构图中节点的特征以

胶囊形式嵌入得到图节点胶囊的表示，充分保留节点的属性；文本内容特征胶囊嵌入模块

主要是利用内容胶囊网络将帖子文本内容的语义特征以胶囊形式进行嵌入得到帖子文本内

容胶囊的表示，充分挖掘文本的语义特征；特征融合模块主要是将帖子在社交网络中的图

节点胶囊表示与其文本内容胶囊表示进行融合，并在此基础上实现对谣言的划分。

剩余11页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3660
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip