没有合适的资源?快使用搜索试试~ 我知道了~
情感分析实训报告.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 34 浏览量
2022-11-13
14:27:07
上传
评论
收藏 2MB PDF 举报
温馨提示
试读
32页
。。。
资源推荐
资源详情
资源评论
计算机学院综合实训报告
互联网文本分析-情感计算
姓 名
班 级
学 号
学科专业
同组成员
指导教师
日 期
目录
1. 序言..................................................................................................................................................... 2
1.1. 选题背景 .................................................................................................................................... 2
1.2. 名词解释 .................................................................................................................................... 3
1.3. 参考资料 .................................................................................................................................... 4
1.4. 选题目的及意义 ........................................................................................................................ 4
2. 课题需求分析 ..................................................................................................................................... 5
2.1. 功能需求 .................................................................................................................................... 5
2.2. 接口需求 .................................................................................................................................... 6
2.3. 开发环境需求 .............................................................................................................................. 7
2.4. 性能需求分析 ............................................................................................................................ 7
3. 系统概要设计 ..................................................................................................................................... 8
3.1. 系统体系结构 ............................................................................................................................ 8
3.2. 系统功能设计 .......................................................................................................................... 10
3.3.数据输入输出格式设计 ............................................................................................................ 11
4.系统详细设计与实现 ......................................................................................................................... 12
4.1.互联网文本分析-情感计算的设计与实现 ............................................................................ 12
4.2 关键算法设计与实现 ................................................................................................................. 17
4.3 接口代码...................................................................................................................................... 29
5.实训总结 .......................................................................................................................................... 31
5.1 技术总结...................................................................................................................................... 31
5.2 思想总结...................................................................................................................................... 31
1. 序言
1.1. 选题背景
用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意
义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大
量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类
的语言能力和智能的机制。
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然
语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因
2
此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理
解研究得较多,而对自然语言生成研究得较少。但这种状况已有所改变。
无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是
十分困难的。从现有的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较
长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有
些已商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、
各种机器翻译系统、全文信息检索系统、自动文摘系统等。
自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是
十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各
样的歧义性或多义性(ambiguity)。
自然语言的形式(字符串)与其意义之间是一种多对多的关系。其实这也正是自然语言
的魅力所在。但从计算机处理的角度看,我们必须消除歧义,而且有人认为它正是自然语言
理解中的中心问题,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表
示。
歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、
基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一
方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩
并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。
1.2. 名词解释
支持向量机(svm): 支持向量机(Support Vector Machine,SVM)是 Corinna Cortes 和
Vapnik 等于 1995 年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特
有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
Tf-idf:TF-IDF: 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的
其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会
随着它在语料库中出现的频率成反比下降。
Lda: LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶
斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的
每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这
3
样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
[
Lsn: 词汇情感倾向性强度的几率比。
Libsvm: LIBSVM 是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使
用和快速有效的 SVM 模式识别与回归的软件包,他不但提供了编译好的可在 Windows 系
列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用
Nlpri: NLPIR 汉语分词系统(又名 ICTCLAS2013),主要功能包括中文分词;词性标注;
命名实体识别;用户词典功能;支持 GBK 编码、UTF8 编码、BIG5 编码。
1.3. 参考资料
[1] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity
summarization based on minimum cuts[C]. 2004.
[2] Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis[C].
2005.
[3] 中国计算机学会中文信息技术专业委员会2013年会评测.(2013-03-10)[2013-09-30]. [电
子文献]
[4] 第五届中文倾向性分析评测(COAE2013)大纲.(2013-08-01)[2013-09-30]. [电子文献]
[5] 赵妍妍,秦兵,刘挺. 文本情感分析[J]. 软件学报. 2010, 21(8): 1834-1848.
[6] 黄萱菁,张奇,吴苑斌. 文本情感倾向分析[J]. 中文信息学报. 2011, 25(6): 118-126.
[7] 朱嫣岚,闵锦,周雅倩,等. 基于HowNet的词汇语义倾向计算[J]. 中文信息学报. 2006,
20(1): 14-20.
[8] 徐琳宏,林鸿飞,潘宇,等. 情感词汇本体的构造[J]. 情报学报. 2008, 27(2): 180-185.
[9] Mccallum A K. MALLET: A Machine Learning for Language Toolkit.[Z]. 2013: 2013.
[10] Chang C, Lin C. LIBSVM: A library for support vector machines[J]. ACM Transactions
on Intelligent Systems and Technology. 2011, 2:
1.4. 选题目的及意义
本次可以巩固学生所学的理论知识使所学知识得以应用。如:javaEE 开
发,java 基础编程等。
期望能够通过本项目的开发锻炼提升学生的计算机系统开发能力,综合
4
运用本专业的基本技能,提高学生的团队意识,熟悉企业软件工程项目开
发的全过程,增强自身就业竞争能力,尽快适应企业工作环境,并在以后
实际工作中站稳。
2. 课题需求分析
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。大数据时代机器代
替人工处理数据是发展的必然趋势,通过机器将数据经过处理使人们得到所需要的有用信息,
从而节省人力得到准确率高的信息。
2.1. 功能需求
舆情自然语言处理主要实现了文本情感分析和主题分类两大模块,能够实现将文本进行
分类,摘出关键要素,对文章主题进行判别,判断出句子情感和句子极性,识别出文本中实
体,主要提供接口。
情感分类关系图
主题分类关系图
5
剩余31页未读,继续阅读
资源评论
春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 课程大作业基于python实现的单目双目视觉三维重建源码(95分以上).zip
- 使用matplotlib库绘制简单图表的例子.rar
- 九阴真经OL资源解包工具
- python-leetcode面试题解之第307题区域和检索.zip
- python-leetcode面试题解之第305题岛屿数量II.zip
- python-leetcode面试题解之第304题二维区域和检索.zip
- python-leetcode面试题解之第303题区域和检索.zip
- python-leetcode面试题解之第299题猜数字游戏.zip
- python-leetcode面试题解之第298题二叉树最长连续序列.zip
- python-leetcode面试题解之第296题最佳的碰头地点.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功