##基于自然语言处理的情感分析工具
## 请注意:
>1. pom.xml 文件中 lingpipe-core jar 没办法从中央仓库下载已经集成到 libs 目录里面,而 pom.xml 中只能使用绝对路径,请注意修改
>2. pom.xml 文件中 hanlp jar 包可能需要手动下载,然后添加到 maven 仓库
### 本程序依赖data目录下面的data.zip和dictionary.zip先解压缩 data 目录下面的 data.zip到当前目录。
### 设计思想
专注某一个领域,比如军事、经济、政府等,利用互联网上的数据。
>1. 首先训练一个专业领域与非专业其它领域的二分类器。
>2. 然后在对新的样本判断是否是该领域的
>3. 训练一个情感分类器,判断这个样本是该领域的正面信息还是负面信息。
### 新增说明4:将模型训练和模型生成应用分离,提炼一些测试用例。
1. 新增 NGramClassierTrainer 用于基于 NGram 特征的分类器训练
2. 增加模型训练配置类:ClassModelConfiguration
### 新增说明3:增加基于 TF-IDF(词向量) 特征的文本分类程序。
1. 主程序:DfIdfClassifier.java
2. 效果如下:
+ CATEGORY nment others
+ government 233 46
+ others 110 390
+ 准确度: 0.8
+ 总共正确数 : 623
+ 总数:779
### 新增说明2:增加基于 N-Gram(词向量) 特征的文本分类程序,目的是找出自己领域相关的文本,然后再从这个领域相关的文本中判断正负面。
1. 测试语料:data/text_classification.zip 解压缩即可
2. 运行程序:NGramClassifier.java 即可。
3. 效果如下:
+ Total Accuracy=0.9550706033376123
+ 95% Confidence Interval=0.9550706033376123 +/- 0.014546897368198444
+ Confusion Matrix
+ reference \ response
+ government,others
+ government 271, 8
+ others 27, 473
### 新增说明1:2015-04-10测试了不用中文分词器,分词之后 LingPipe 情感分类的准确率,同时测试了去除停用词之后的情感分类的准确率。
####注意:有时候不用中文分词器效果更好,一定要测试。
1. 发现用HanLP的NLPTokenizer分词器,准确率最高,但是速度有点慢。
2. 如果用HanLP的标准分词器就会准确率低一点点,但是速度快。
3. 分词之后去除停用词效果更加差。
4. 结巴分词效果不好,而且速度慢。
###1、基于词典和贝叶斯模型的情感分析
主程序:eshore.cn.it.sentiment.Sentiment 此类通过
data/Sentiment_Dictionary中的正负面词语建立模型。
测试: eshore.cn.it.sentiment.SentimentTest
通过这个类就可以测试 data/500trainblogxml中的某个文件夹下面的博客的情感。
###2、直接利用lingpipe的情感分析模块测试情感分析
直接运行程序: eshore.cn.it.sentiment.ChinesePolarityBasic
程序就会通过: data/polarity_corpus/hotel_reviews/train2训练
然后自动测试: data/polarity_corpus/hotel_reviews/test2
最后给出程序测试结果。
```
# Test Cases=4000
# Correct=3541
% Correct=0.88525
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
情感分析是一个自然语言处理 (NLP) 的分支,它使用机器学习来分析和分类文本数据的情感基调。基本模型主要专注于积极、消极和中立的分类,但也可能包含发言者的潜在情感(愉悦、生气、侮辱等)以及购买意图。 上下文会增加情感分析的复杂性。例如,感叹句“没什么!” 取决于发言者对产品是否喜欢所做出的评价,其含义可能截然不同。为了理解“我喜欢它”这个短语,机器必须能够理清上下文,并理解“它”指的是什么。讽刺和挖苦也具有挑战性,因为发言者可能会说一些积极的内容,但其表达的是相反的意思。 情感分析有多种类型。基于层面的情感分析将深入一个层次,以确定哪些特定特征或层面正在产生积极、中立或消极的情感。企业可以使用这种见解来找出产品中的缺点,或反之,找出产品中产生意外热情的特征。情感分析是一种变体,可试图确定演讲者围绕主题的情感强度。意图分析决定采取行动的可能性。
资源推荐
资源详情
资源评论
收起资源包目录
利用自然语言处理技术进行情感分析.rar (19个子文件)
利用自然语言处理技术进行情感分析
新建文本文档.txt 19B
nlp-sentiment-master
pom.xml 2KB
src
test
java
eshore
cn
it
classification
NGramClassierTest.java 5KB
GovernClassModelTest.java 867B
DfIdfClassierTest.java 6KB
sentiment
SentimentTest.java 8KB
PolarityBasic.java 3KB
ChinesePolarityBasic.java 4KB
Sentiment.java 8KB
main
java
eshore
cn
it
configuration
ClassModelConfiguration.java 1KB
classification
NGramClassierTrainer.java 4KB
StringTools.java 11KB
data
text_classification.zip 3.14MB
data.zip 58.72MB
dictionary.zip 40.16MB
.gitignore 110B
libs
lingpipe-4.1.0.jar 1015KB
.gitignore 54B
README.md 3KB
共 19 条
- 1
资源评论
野生的狒狒
- 粉丝: 2505
- 资源: 2146
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 毕业设计基于python矩阵分解的推荐算法研究源码+详细文档+全部数据资料 高分项目.zip
- 基于网络的入侵检测系统源码+数据集+详细文档(高分毕业设计).zip
- 微信小程序源码 旅行故事分享 - 面包旅行App界面设计与文本展示资源下载
- 微信小程序源码 创意互动游戏 - 你画我猜App下载
- 摸底考试_学生版20230305.py
- 课程设计基于FPGA数字钟课程设计源码+课设报告(95分以上).zip
- 基于Java的企业家申报系统设计源码
- Cesium案例,集成各种模型,推演,各种Cesium效果
- 基于Python的Struts2全漏洞扫描利用工具设计源码
- python朴素贝叶斯(Naive Bayes)算法,机器算法
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功