没有合适的资源?快使用搜索试试~ 我知道了~
采用CNN-LSTM与迁移学习的虚假评论检测.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 77 浏览量
2022-06-24
13:32:51
上传
评论
收藏 493KB DOCX 举报
温馨提示
试读
11页
采用CNN-LSTM与迁移学习的虚假评论检测.docx
资源推荐
资源详情
资源评论
0引言
信息化时代,互联网逐渐成为人们获取信息的重要渠道,出现了大量带有用户主观情感、语义丰富的
短文本
[1]
。面对还未接触或者不够了解的服务与产品,多数用户习惯于通过互联网获取有关信息,来
自互联网的评价极大影响着用户的最终决策与选择。如用户在有关平台上预订酒店时,在其他条件合
适的情况下往往会先参考酒店已入住者提供的评论,并根据评论做出是否预定该酒店的决定。因为互
联网评价的这一作用,大量虚假评价也频繁出现在有关平台,而虚假的产品与服务评论不仅可能误导
消费者的最终决策,还会对商家的信用产生较大影响。因此,高效识别网络的虚假评论具有重要的社
会意义与经济价值[2]。
在互联网上发布虚假评论成本较低,普通用户对于虚假评论的识别能力较差,通常很难识别出带有欺
骗性质的虚假评论,因此相关研究大多以虚假评论为实验研究对象[2]。
1相关研究
虚假评论文本的检测与识别方法很多,包括无监督学习、半监督学习和有监督学习,深度学习模型在
虚假评论识别研究得到应用。深度学习模型识别主要分为基于内容的虚假评论文本识别与基于文本特
征的虚假评论识别两种
[2]
。Yan
[3]
等提出的神经网络模型对于虚假评论信息检测的准确率达到 85%;
陶晶晶
[4]
提出的基于并联方式的混合神经网络识别模型,在对虚假商品评论数据检测中达到 90.3%的
准确率。
本文基于酒店英文评价数据集 deceptive-opinion-spam-corpus
[5]
,利用 Doc2Vec 将文本向量化
后作为特征集,结合 TF-IDF 方法,使用 CNN-LSTM 模型和迁移学习方法,构建了一个虚假英文评论
分类模型,并在数据集 deceptive-opinion-spam-corpus 上进行对比实验。实验结果表明,该模
型对虚假评论的检测达到 93.1%的准确率。
2数据与方法
2.1数据集
deceptive-opinion-spam-corpus 数据集是一个只有 1 600 条评价的中小型数据集,包括对 20
家芝加哥酒店真实和虚假的在线评论。 deceptive-opinion-spam-corpus 数据集包含 800 条来自
Mechanical Turk 的虚假评价和 800 条来自 TripAdvisor 与 Expedia 的真实评价,其中正面评价
与负面评价在真实评价与虚假评价中的占比均为 1∶1,如图 1 所示。
Fig. 1Distribution of dataset data
图 1数据集中数据的分布
下载:原图ú|高精图ú|低精图
本文对 deceptive-opinion-spam-corpus 数据集的英文评论文本进行了数据预处理,预处理后的
英文评论文本中不包含任何标点符号、特殊字符以及阿拉伯数字。
2.2对照方法
本文使用基准方法为传统的 Logistic 回归算法、朴素贝叶斯分类算法以及一种能够有效检测虚假文本
的卷积神经网络模型
[6]
,简称 CNN1。CNN1 由三层卷积神经网络组成,每一层卷积神经网络都包含
一层卷积层和最大池化层。Logistic 回归是一种广义的线性回归分析模型,是一种用于解决二分类问
题的机器学习方法;朴素贝叶斯分类模型是一种快捷简单的机器学习分类算法,常为文本分类问题提
供快速粗糙的基本方案,模型的数学基础是贝叶斯定理
[7- 8]
;卷积神经网络在很多领域表现优秀,可有
效提取评论特征并进行识别。
对 deceptive-opinion-spam-corpus 数据集进行数据预处理后,应用上述 3 种算法,取训练集与
测试集的比例为 8∶2,对数据集中酒店评论文本的真实性进行检测并验证。
最终结果如图 2 所示。Logistic 回归算法的准确率 score_1 为 84.017 8%;朴素贝叶斯分类模型的
准确率 score_2 为 79.910 7%;CNN1 的平均准确率 score_3 为 78.561 0%。
Fig. 2Experimental results of benchmark method
图 2基准方法实验结果
下载:原图ú|高精图ú|低精图
2.3有关算法
2.3.1数据预处理及特征提取
首先对数据集 deceptive-opinion-spam-corpus 的文本与标签数据进行预处理,再利用 doc2vec
对文本数据进行特征提取并利用 TF-IDF 方法将评论数据向量化。
Doc2vec 是基于 Word2vec 模型提出的可以保留次序语义的语义模型,该模型在 Word2vec 模型
基础上增加了一个段落标识
[9]
。Doc2Vec 能将句子或段落转化为固定长度的向量,且充分考虑了词序
对语句或文档信息的影响,能很好结合上下文语境,保留语序信息
[10-1 1 ]
。因此,Doc2vec 常用于处
理短文本的自然语言处理问题。TF-IDF 模型是一类应用广泛的加权技术,经常被用来进行信息检索
和数据挖掘
[12]
。TF-IDF 模型的核心思想是,若某个词汇在文本出现概率较大,而该词汇在其他文本
中出现概率较小,则此词汇具有更好的类别判别性能和分类泛用性。
数据预处理和特征提取方式如下:①将标签数据向量化;②对文本数据进行预处理,包括删除特殊字
符和数字,将文本中的词语转化为词干形式等;③将数据集按比例随机划分为训练集、测试集和验证
集;④将训练集中的文本数据利用 doc2vec 方法进行特征提取;⑤利用 TF-IDF 模型将数据集赋予权
重并向量化。
剩余10页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3651
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功