没有合适的资源?快使用搜索试试~ 我知道了~
基于机器学习的情绪分析研究.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 89 浏览量
2023-09-09
14:15:13
上传
评论 1
收藏 907KB DOC 举报
温馨提示
试读
28页
基于机器学习的情绪分析研究.doc
资源推荐
资源详情
资源评论
基于机器学习的情绪分析研究
——智能模型设计和实现
摘要
互联网技术的迅速发展使得社交平台逐渐成为热点事件中社会情感的枢纽。社会热
点事件的舆论监管的其中一个重要环节就是能够准确分析民众的社会情绪。本文旨在探
索可以基于文本大数据彻底分析民众对热点事件的社会情绪的模型和方法。先是从社交
平台上借助文本大数据、对数据进行提前处理以及用 python 自然语言处理包等方法建
立能够分析社会情绪的模型,其次找到最佳的机器学习算法,再次用机器学习的方法对
模型进行训练,获得一个情感分类器。最后用热点事件“冠状病毒”的真实数据在情感
分类器上进行社会情绪分析验证,证明了模型和方法的有效性。
关键词:网络文本大数据;机器学习;情绪分类器;社会情绪分析;
Research on emotion analysis based on machine learning
——Design and implementation of intelligent model
Abstract
The rapid development of Internet technology makes social platforms gradually
become the hub of social emotion in hot events.One of the important aspects of public
opinion supervision of social hot events is the ability to accurately analyze the public's social
sentiment. This paper aims to explore the model and method that can thoroughly analyse the
people’s social emotions of hot events based on text big data. Firstly, the writer built up the
model of social emotions analysis by virtue of text big data from the social platforms, data
preprocessing and the use of Python Natural Languge Toolkit and so on. Secondly, utilized
the best machine learning algorithm and then trained the model by machine learning method
to obtain an emotion classifier. Finally, the real data of the hot event "coronavirus" was used
to analyze the social emotions on the emotion classifier, which proved the validity of the
model and method.
Keywords:Webtextbigdata、machinelearning、sentimentclassifier、socialsentimentanalysis;
目录
诚信承诺书 ..........................................................................2
——智能模型设计和实现 ..............................................................3
摘要 ................................................................................3
1 前言: .............................................................................1
1.1 设计目的及意义 ..............................................................1
1.2 本课题国内外现状及存在问题 ..................................................1
1.3 本设计应解决的主要问题 ......................................................2
2 设计过程 ...........................................................................2
2.1 设计简要流程 ................................................................2
2.2 文本数据获取 ................................................................3
2.2.1 创建 APP ..............................................................3
2.2.2 调配使用 API ..........................................................3
2.2.3 开始程序编辑..........................................................3
2.3 数据预处理 ..................................................................4
2.3.1 句柄的删除............................................................4
2.3.2 删除标点、数字和特殊字符..............................................5
2.3.3 处理表情符号..........................................................5
2.3.4 词干提取..............................................................6
2.4 标注类标签 ..................................................................6
2.5 分词 ........................................................................7
2.6 特征提取 ....................................................................7
2.7 特征降维与 TF-IDF ............................................................9
2.8 搭建模型 ...................................................................11
2.8.1 以机器学习为基础的文本情感分析方法...................................11
2.8.2 支持向量机 SVM .......................................................12
2.9 模型评估 ...................................................................14
3 设计总结 ..........................................................................15
4 参考文献 ..........................................................................17
5 致谢: ............................................................................18
6 附录 ..............................................................................19
6.1 数据预处理程序代码 .........................................................19
6.2 模型程序代码 ...............................................................21
1
1 前言:
1.1 设计目的及意义
近来,社交媒体和电子商务平台发展迅速,Twitter、微博、MSN、微信等社交网络
正逐渐地改变着人们的生活,越来越多的人习惯于通过网络平台表达自己的态度和情感,
这些网络文本是客户流露的真实情感。对网络文本大数据热门事件的情绪进行分析可以
使人们获得更多关于内心世界的知识,因此,从这些文本信息中自动准确的识别客户的
情感类别,对政府舆情监控、企业管理与决策来说是一个很大的支持,它也成为学术界近
来持续关注的研究热点,同时极大地促进了情绪分析技术的发展。
1.2 本课题国内外现状及存在问题
文本情感分析也可以说是挖掘文本意见的方法。简而言之,它是分析,处理,总结
和推断具有情感色彩的主观文本的过程[1]。目前海内外关于文本情绪分析研究的方向
主要有两个:一个是判断主观信息的细粒度,另一个是判断文本的主客观性。前者强调
将情感词作为中心去分析文本级的情绪倾向,而文本的情绪倾向是通过贬值情感词的线
性加权值来实现的。熊德兰等人[2]基于 How Net 语义词典中词汇语义相似度的计算方
法。意在基于语义词典,充分想到词语组成在一起之后语义可能改变,直接影响到情感
褒贬判断的偏向结果,于是用各个词语义进行权重计算结果来判断从而避免受影响。该
方式基于语义词集,能很精确地预测情感倾向,但缺点是操作起来复杂且在很大程度上
取决于词汇层次分类算法的精确度。则此方法显然对大量的文本数据处理是不合适。为
了处理大量数据,研究人员介绍了用于情感分析的机器学习方法,例如 K 最近邻,最大
熵模型,朴素贝叶斯和支持向量机(SVM)方法[3]。
虽然以语义词集为基础的语义加权分类效果比机器学习方法较好,但胜在后者能够
更轻易地去分析处理大量的文本数据。例如徐军等人[4]利用机器学习方法对新闻评论
进行情感分类,在最理想的数据集上分类准确率可以达到 90%,然而这种方法缺乏语义
分析,容易产生向量空间模型数据稀疏问题,对于中文文本处理中普遍存在的一词多义
和多词一义问题也不能解决。闻彬等人[5]在情感词识别中引人情感语义概念,基于语
义理解来进行文本情感分类,可在一定程度上缓解一词多义和多词一义引起的分类准确
率不高的问题,它的不足之处在于只考虑到词语语义层副词的出现规律对词语语义的作
用,忽略了整个文本语境对词语语义的影响。一些研究者[6]通过已有文本规则,充分
考虑用文本的语法结构去预测文本情绪倾向。但是不得不说该方式的实用性差、工艺复
杂且难以推广。也有部分研究者尝试借助非标注样本不断训练分类器的方法来提高半监
2
督学习方法的情感分类准确率,实验证明该方法是有效的[7]。还有谢丽星等[8]提出了
一种基于 SVM 的层次结构多策略中文微博情感分析方法;刘宝芹等[9]在将情绪类别组
织成三层树状结构后,采用朴素贝叶斯分类模型对中文微博进行多层次的情绪分析;欧
阳纯萍等[10]提出多策略中文微博细粒度情绪分析方法,采用 SVM 和 KNN 算法对微博
进行细粒度情绪分析;雷龙艳等[11]在对微博进行文本特征表示的基础上,采用 SVN 和
KNN 算法对微博进行细粒度情绪分析。等等这些国内外的文本情感分类方法研究,对本
设计的方法选择与优化都提供了一定的帮助。
1.3 本设计应解决的主要问题
接下来 Twitter 数据将作为我们今天的实战项目用于情绪分析。由于采用了机器
学习,我们主要解决以下问题:
① 从 Twitter 上获取适量文本数据;
② 对文本数据进行必要的预处理;
③ 标住类标签,分割开发集和测试集数据;
④ 对预处理后的数据进行特征提取与向量加权;
⑤ 训练模型,调整参数,评估模型;
⑥ 用测试集进行测试验证情绪分析的准确率;
2 设计过程
2.1 设计简要流程
图 2.1-1_设计简要流程图
训练文
本集
测试文
本集
文本预
处理
选举特
征词集
情感词
典
向量空
间表示
SVM 分类
器
情感分
类结果
训练 SVM
分类器
文本预
处理
向量空
间表示
分类参数
TF-IDF 特
征降维
剩余27页未读,继续阅读
资源评论
南抖北快东卫
- 粉丝: 70
- 资源: 5584
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功