基于朴素贝叶斯实现的豆瓣影评情感分析
语料来自与豆瓣 Top250 排行榜中的影评,基于 Scrapy 抓取,大约 5w 条影评,好评差评各
占 50%。
豆瓣影评爬虫 https://github.com/3inchtime/douban_movie_review
训练集与测试集 4:1,结果准确率约为 80%-79%之间。
因为电影评论中有很大一部分好评中会有负面情感的词语,例如在纪录片《海豚湾》
我觉得大部分看本片会有感的人,都不知道,中国的白暨豚已经灭绝 8 年了,也不会知道,
长江里的江豚也仅剩 1000 左右了。与其感慨,咒骂日本人如何捕杀海豚,不如做些实际的
事情,保护一下长江里的江豚吧,没几年,也将绝迹了。中国人做出来的事情,也不会比小
日本好到哪儿去。
所以说如果将这种类似的好评去除,则可以提高准确率。
Example