项目报告
基于情感词典与机器学习的酒店评论情感
分类研究
摘 要
随着电商经济的兴起,更多的人选择在线上预订酒店出行,并将自己的体验
进行在线评论反馈。因此,在大数据的背景之下,如何高效地利用这些评论数据就
显得尤为重要。因携程在电商旅游平台行业中处于龙头地位,本文认为携程酒店
评论具有代表性并以其为例进行实践。首先,本文选取了上海地区位于推荐前四
页的 32 家酒店,利用 spyder 对用户评价内容及其相关评论信息进行爬取,最终
共获取 2829 条评论信息。然后,利用 jupter notebook 对获取到的文本数据进行清
洗、分词、去停用词等预处理工作。最后,对处理好的数据进行情感分类,本文使
用的情感分类方式主要包括情感字典和机器学习算法。首先采用情感词典分类的
方式对文本数据做出大致分类的界定,并进行可视化展示,进而使用 TF-IDF 算
法构建词向量并进行数据集划分。然后,根据相应的分类算法对训练集和测试集
分别进行训练和测试,最终得出情感分类效果最好的分类器为逻辑回归模型。通
过对情感极性分类结果可以看出,用户对该区域酒店体验的整体情感倾向是积极
的;但实际评分和情感打分存在一定偏差,可以对评分的有用性进一步分析等。
最后,上述所得结论和可视化结果,对酒店商家等主体有一定的参考价值。
关键词:酒店评论;情感词典;机器学习;自然语言处理;
目 录
一、绪论............................................................4
第一节、项目背景 ................................................4
第二节、项目内容 ................................................4
第三节、项目组织框架 ............................................5
二、数据采集........................................................5
第一节、目的 ....................................................5
第二节、目标网站分析 ............................................6
第三节、主体代码的介绍 ..........................................6
第四节、数据的存储 ..............................................7
三、数据集介绍与预处理..............................................7
第一节、数据集介绍 ..............................................8
第二节、数据预处理 ..............................................8
(一)
总体数据清洗
.........................................8
(二)
评论文本预处理
.......................................8
(三)
探索性分析
...........................................9
四、实验设计与实验结果.............................................10
第一节、 情感词典.............................................10
(一) 情感词典介绍.........................................10
(二) 实验设计.............................................10
(三) 实验结果.............................................11
第二节、 机器学习 .............................................13
(一) 实验设计.............................................13
(二) 实验结果(预测效果) .................................14
第三节、 本章小结 .............................................14
五、项目总结与展望.................................................14
参考文献...........................................................16
一、绪论
第一节、项目背景
互联网的用户规模已经十分庞大,人们大多有使用互联网来表达个人想法、
获取有用信息的习惯。文章、视频、图片和评论信息等等,这些信息中隐藏着用
户的情感倾向,具有很高的研究价值。因此,获取用户发表在互联网上的评论,挖
掘文本中隐藏的用户情感,分析影响用户情感起伏的因素,对互联网商家,媒体和
政府部门等等都具有很高的参考意义。从企业的角度来说,获取互联网应用平台
上消费者的评论数据相较于走访式的市场调研等更为高效和高质。但是过于庞杂
的信息仍带来一定的干扰和不便:在酒店领域,各个酒店的评论留言随着时间的
推移激增,从中筛选有效信息变得繁琐而费时。[1]与此同时,意见的多样性表达
对文本研究具有很高的挑战性。评论文本作为一种主观文本,以个体的情感和意
图为依据,在进行文本描述时,对字词的使用具有很强的随意性,甚至在句式的使
用上会显得相对不规范与口语化。[2]
在文本分析中,找对重点是前进的关键。评论文本的主客观情感分析是提取
用户兴趣偏好的最基本和最重要的补充。因此通过研究用户的情感倾向,并应用
到相关领域的预测中,辅助决策与判断,是近年来的关注方向。而情感分类是情感
分析中最重要的一个环节。情感分类是一种倾向性分类,所研究的对象是作者所
表达出来的主观倾向性,分类的结果一般为褒义情感或是贬义情感,甚至是复杂
多层次的情感。[1]目前有很多种分类方法,一般按照情感词典和机器学习两大
类进行划分,本项目将对这两个方向展开一定探索。
第二节、项目内容
本项目基于携程网——国内知名在线旅游平台展开研究,首先使用网络爬虫
从网络平台上获取项目分析所需要的酒店评论数据集,接着进行数据预处理,包
含数据清洗、去符号字符、切词、去停用词、词性标注等步骤。然后基于《知网
情感词典》开展情感分类工作,并绘制正面,负面情感词云和相关性热力图进行
展示。
另一方面,开展机器学习工作。对文本数据进行 TF-IDF 特征提取,转换成
机器看得懂的语言,并构建三种分类算法,分别是朴素贝叶斯,决策树和逻辑回
归模型,实现对评论情感的分类及预测。
第三节、项目组织框架
本项目的组织框架如图 1.1 所示:
图 1.1 项目组织框架图
本报告内容将按如下顺序进行安排:
第一章为绪论,介绍本项目的项目背景以及研究内容;
第二章为数据采集,详述本项目所使用数据集的采集过程与部分爬虫代码示
例;
第三章,对本项目使用的数据集进行介绍, 描述数据的预处理过程;
第四章,详细介绍本项目的实验过程,并对实验结果进行解释;
第五章,总结项目。
二、数据采集
第一节、目的
笔者的目的是爬取携程网站上,目的地为上海,位置区域为商业区的最受欢
迎的酒店以及对应的酒店评论,如图 2.1 所示。