推文的情感分析
情绪分析可用于多种目的,包括评估公众对产品或事件的情绪,预测社会动荡,指导政策制定以及帮助决定如何最佳分配资源。 因此,尽管我在该项目中使用的数据集大约有14000条关于主要航空公司的推文,每条推文都被分类为正面,负面或中立,但我这样做的兴趣是学习和练习使用自然语言处理和预测模型进行情感分析,以便能够以各种不同的方式应用它。 为此,我构建了一些功能来执行EDA,文本分析,文本清理,预测建模,交叉验证和无监督学习技术。
尽管我在分析中主要使用了推文及其预先标记的情感,但我首先将数据放入Pandas数据框中,替换了NaN,删除了重复的行,并将时间序列数据缩短为一天并将其转换为datetime对象。
Tweet情绪的分布约为63%负面,21%中性和16%正面。
这个词云显示了在处理文本之前所有推文中最常用的词。
我创建了一个文本处理管道,该管道执行以下操作:
小写文字
删除标点