2017 年 8 月 8 日周报
一、 参考文献
《基于长短记忆多维主题情感倾向性分析模型》
作者:滕飞、郑超美、李文、南昌大学信息工程学院
关键词:中文微博、情感倾向分析、长短记忆(LSTM)、多层多维模型、主题标签
二、 收获
1. 微博特征
具有独特情感特征,既需明白表面意思,又需分析内在含义,篇幅短小精悍,语言
结构口语化,存在表情符号和创造性语言特征,因此需从各个方面对微博信息进行
分析
2. RNN 的缺陷
(1) 长期目标依赖性导致训练难度大;(2)RNN 侧重于对整个句子的理解,微
博很少有完整的句子或完善的语法结构;(3)CW—RNN(CW-RNN 用一组
几何级数频率的时钟去驱动神经网路,如频率为 f, 2f, 4f, 8f,)不适用于正则
法表达,缺乏上下文内在关联,使微博识别性降低;
3. 使用 LSTM 原因
(1) 轻松捕获是长期依赖项,减缓信息衰缓速率,增加深度计算优势;(2)多
维主题情感分析,提高微博情感倾向分辨率;(3)增强分类准确性,不依
赖句子标签和形式,采用分层方式增强词与词,义群与义群,句与句的联
系,再将主题进行分类;(4)解决因时间迁移导致数据模糊而无法计算问
题;
4.微博情感分析过程
(1) 对语料库进行预处理,对微博信息进行清洗,去掉微博中不存在的情感噪
声数据(话题,标题,回复,统一资源定位器,来源),表情符号转为文字,
采用 ICTCLAS 分词系统将句子进行词语划分,保留标点和各种符号,表情符
评论0