采用CNN-LSTM与迁移学习的虚假评论检测.docx_迁移学习CNN-BiGRU资源-CSDN文库

版权申诉

77 浏览量 2022-06-24 13:32:51 上传评论收藏 493KB DOCX 举报

资源推荐

资源详情

资源评论

0引言

信息化时代，互联网逐渐成为人们获取信息的重要渠道，出现了大量带有用户主观情感、语义丰富的

短文本

[1]

。面对还未接触或者不够了解的服务与产品，多数用户习惯于通过互联网获取有关信息，来

自互联网的评价极大影响着用户的最终决策与选择。如用户在有关平台上预订酒店时，在其他条件合

适的情况下往往会先参考酒店已入住者提供的评论，并根据评论做出是否预定该酒店的决定。因为互

联网评价的这一作用，大量虚假评价也频繁出现在有关平台，而虚假的产品与服务评论不仅可能误导

消费者的最终决策，还会对商家的信用产生较大影响。因此，高效识别网络的虚假评论具有重要的社

会意义与经济价值[2]。

在互联网上发布虚假评论成本较低，普通用户对于虚假评论的识别能力较差，通常很难识别出带有欺

骗性质的虚假评论，因此相关研究大多以虚假评论为实验研究对象[2]。

1相关研究

虚假评论文本的检测与识别方法很多，包括无监督学习、半监督学习和有监督学习，深度学习模型在

虚假评论识别研究得到应用。深度学习模型识别主要分为基于内容的虚假评论文本识别与基于文本特

征的虚假评论识别两种

[2]

。Yan

[3]

等提出的神经网络模型对于虚假评论信息检测的准确率达到 85%；

陶晶晶

[4]

提出的基于并联方式的混合神经网络识别模型，在对虚假商品评论数据检测中达到 90.3%的

准确率。

本文基于酒店英文评价数据集 deceptive-opinion-spam-corpus

[5]

，利用 Doc2Vec 将文本向量化

后作为特征集，结合 TF-IDF 方法，使用 CNN-LSTM 模型和迁移学习方法，构建了一个虚假英文评论

分类模型，并在数据集 deceptive-opinion-spam-corpus 上进行对比实验。实验结果表明，该模

型对虚假评论的检测达到 93.1%的准确率。

2数据与方法

2.1数据集

deceptive-opinion-spam-corpus 数据集是一个只有 1 600 条评价的中小型数据集，包括对 20

家芝加哥酒店真实和虚假的在线评论。 deceptive-opinion-spam-corpus 数据集包含 800 条来自

Mechanical Turk 的虚假评价和 800 条来自 TripAdvisor 与 Expedia 的真实评价，其中正面评价

与负面评价在真实评价与虚假评价中的占比均为 1∶1，如图 1 所示。

剩余10页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3651
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip