基于Python实现有关话题数据所作的两极情感分析【100012299】

共2000个文件

txt_utf8：21199个

txt：2003个

json：135个

版权申诉

Python

情感分析

课程设计

59 浏览量 2023-05-18 10:15:01 上传评论收藏 84.36MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于Python实现有关话题数据所作的两极情感分析【100012299】（2000个子文件）

2020-03-01-keywords.html 12KB

2020-03-05-keywords.html 12KB

2020-02-26-keywords.html 12KB

2020-03-11-keywords.html 12KB

2020-03-06-keywords.html 12KB

2020-02-23-keywords.html 12KB

2020-03-09-keywords.html 12KB

2020-03-08-keywords.html 12KB

2020-03-14-keywords.html 12KB

2020-03-04-keywords.html 12KB

2020-03-17-keywords.html 12KB

2020-03-15-keywords.html 12KB

2020-03-10-keywords.html 12KB

2020-03-12-keywords.html 12KB

2020-02-22-keywords.html 12KB

2020-03-16-keywords.html 12KB

2020-03-13-keywords.html 12KB

2020-02-21-keywords.html 12KB

2020-03-02-keywords.html 12KB

2020-02-25-keywords.html 12KB

2020-03-07-keywords.html 12KB

2020-02-29-keywords.html 12KB

2020-02-27-keywords.html 12KB

2020-02-24-keywords.html 12KB

2020-03-03-keywords.html 12KB

2020-02-28-keywords.html 12KB

stageCOVWeibo.json 3.35MB

2020-02-29-blog.json 2.07MB

2020-03-01-blog.json 1.75MB

2020-03-02-blog.json 1.62MB

2020-03-15-blog.json 1.59MB

2020-02-28-blog.json 1.58MB

2020-02-27-blog.json 1.54MB

2020-03-16-blog.json 1.53MB

2020-03-17-blog.json 1.43MB

2020-03-14-blog.json 1.38MB

2020-03-12-blog.json 1.34MB

2020-03-06-blog.json 1.34MB

2020-03-13-blog.json 1.31MB

2020-02-25-blog.json 1.29MB

2020-02-24-blog.json 1.29MB

2020-03-11-blog.json 1.27MB

2020-03-05-blog.json 1.26MB

2020-02-26-blog.json 1.24MB

2020-03-04-blog.json 1.22MB

2020-03-07-blog.json 1.2MB

2020-02-21-blog.json 1.19MB

2020-02-23-blog.json 1.17MB

2020-03-10-blog.json 1.16MB

2020-03-08-blog.json 1.16MB

2020-03-03-blog.json 1.13MB

2020-03-09-blog.json 1.11MB

2020-02-22-blog.json 1.05MB

2020-02-29-blog-Scored.json 604KB

2020-03-01-blog-Scored.json 569KB

2020-03-02-blog-Scored.json 513KB

2020-02-28-blog-Scored.json 481KB

2020-03-15-blog-Scored.json 459KB

2020-03-16-blog-Scored.json 445KB

2020-02-27-blog-Scored.json 441KB

2020-03-17-blog-Scored.json 428KB

2020-03-06-blog-Scored.json 414KB

2020-03-05-blog-Scored.json 405KB

2020-03-04-blog-Scored.json 398KB

2020-03-14-blog-Scored.json 397KB

2020-03-07-blog-Scored.json 397KB

2020-03-12-blog-Scored.json 388KB

2020-02-24-blog-Scored.json 383KB

2020-03-13-blog-Scored.json 379KB

2020-03-11-blog-Scored.json 376KB

2020-02-25-blog-Scored.json 372KB

2020-02-26-blog-Scored.json 368KB

2020-03-03-blog-Scored.json 359KB

2020-03-08-blog-Scored.json 356KB

2020-02-23-blog-Scored.json 353KB

2020-03-10-blog-Scored.json 352KB

2020-02-21-blog-Scored.json 346KB

2020-03-09-blog-Scored.json 337KB

2020-02-22-blog-Scored.json 306KB

2020-02-23-blog-COV.json 204KB

2020-03-03-blog-COV.json 202KB

2020-03-15-blog-COV.json 198KB

2020-03-01-blog-COV.json 167KB

2020-02-26-blog-COV.json 160KB

2020-03-02-blog-COV.json 158KB

2020-02-27-blog-COV.json 156KB

2020-02-21-blog-COV.json 152KB

2020-03-16-blog-COV.json 149KB

2020-03-07-blog-COV.json 141KB

2020-03-11-blog-COV.json 132KB

2020-03-17-blog-COV.json 131KB

2020-03-06-blog-COV.json 122KB

2020-03-13-blog-COV.json 119KB

2020-02-25-blog-COV.json 118KB

2020-03-04-blog-COV.json 113KB

2020-03-14-blog-COV.json 109KB

2020-03-05-blog-COV.json 107KB

2020-02-22-blog-COV.json 104KB

2020-02-24-blog-COV.json 104KB

2020-03-10-blog-COV.json 89KB

共 2000 条

# 基于人民日报和微博等与疫情有关话题数据所作的两极情感分析---机器学习方法 ### 前言在成功获取来自微博和人民日宝的数据后，重点就是如何利用这些数据实现情感的极性分析。目前情感倾向分析的主流方法有两类，其一是基于情感词典，这需要应用到标注好的情感词典，英文语料的各类词典数量庞大，而现有的中文语料的词典却不是很多，主要有知网整理的情感词典 Hownet 和台湾大学整理发布的 NTUSD 两个情感词典，还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。在实践过程中我们选取了大连理工大学的情感词汇本体库进行基于词典的情感分析.第二种方法则是基于机器学习，其需要大量人工标注的语料作为训练集，并通过提取文本特征，构建分类器模型来实现情感分类。下图为使用机器学习方法的过程流： ![](https://www.writebug.com/myres/static/uploads/2022/1/6/c060e8710cf22612a09d30ee9a4053e0.writebug) 相较于固定的情感词典，机器学习方法的优点就在于其精确度更高。首先，词典匹配会由于语义表达的丰富性而产生很大误差，而机器学习则无需深入到语法层面。其次，词典匹配的方法适用范围更加广泛，因为词典本身所包含的语料就十分丰富；相较而言，机器学习方法对训练集语料的质量依赖性较高，如果训练语料针对性不强，则会严重影响到模型的性能，相反优秀的训练语料会使训练所得模型在特定的预测方向拥有极高的精确度。 Python 有很多优秀的适用于情感分类的模块，比如 Python 自然语言处理包，即 Natural Language Toolkit，简称 NLTK，本次实验中，还使用了 jieba 作为中文文本的分词工具。 ![](https://www.writebug.com/myres/static/uploads/2022/1/6/fa4b95991232731a8c633af5d27e0f38.writebug) #### 中文分词 Chinese Word Segmentation 在 NLP 中，分词可以说是最基础的任务。分词需要正确地将句子，段落、文章之类的长文本分解为字词单位，方便后续的处理分析。分词的目的在于把原生数据转化成具有特定结构的数据，这是模型提取特征的基础，使机器学习方法把原始问题转化成数学问题成为可能。英文天然可以通过空格分词，但有时候也要考虑将多个单词判断成一个词，比如“New York”，而且英文单词具有多种形态，为了应对这些复杂的词形转换，英文 NLP 相比中文存在一些独特的处理步骤，我们称为词形还原（Lemmatization）和词干提取（Stemming）；而对于中文来说，因为中文语句中没有空格，实际划分会比较困难。另外，中文分词还要考虑词语的粒度问题。“南京九乡河文理学院”就有多种分词方法： - ”\南京九乡河文理学院\" - "\南京\九乡河文理\学院\" - "\南京\九乡河\文\理\学院\" 不同的分词粒度对应于不同的场景需要。 # 一、中文分词问题分词中涉及到三个基本问题：分词规范、歧义切分、未登录词识别。 ### 分词规范 - 既上文提到的分词粒度的问题 ### 歧义切分带有歧义的字段在汉语中普遍存在，而歧义字段是汉语切分的一个重要难点。梁南元最早对歧义字段进行了两种基本的定义： - 交集型切分歧义：汉字串 AJB 称作交集型切分歧义，如果满足 AJ 、JB 同时为词（A 、 J、B 分别为汉字串）。此时汉字串 J 称作交集串。如，大学生（大学/学生）、研究生物（研究生/生物）、结合成（结合/合成）. - 组合型切分歧义：汉字串 AB 称作多义组合型切分歧义，如果满足 A 、B 、AB 同时为词。如，起身（他 | 站 | 起 | 身 | 来/明天 | 起身 | 去北京）、学生会（我在 | 学生会 | 帮忙/我的 | 学生 | 会来 | 帮忙）可以看出，歧义字段给我们的分词问题带来了极大的困扰，所以想要正确的做出切分判断，一定要结合上下文语境，甚至韵律、语气、重音、停顿等。 ### 未登录词识别未登录词，一种是指已有的词表中没有收录的词，另一种是指训练语料中未曾出现过的词。而后一种含义也可以被称作集外词，（out of vocabulary），即训练集以外的词。通常情况下未登录词和是一回事，这里不加以区分。未登录词大体可以分为如下几个类型： - 新出现的普通词汇，如网络用语当中层出不穷的新词，这在我们的分词系统这种也是一大挑战，一般对于大规模数据的分词系统，会专门集成一个新词发现模块，用于对新词进行挖掘发现，经过验证后加入到词典当中。 - 专有名词，在分词系统中我们有一个专门的模块，命名体识别（ name entity recognize），用于对人名、地名以及组织机构名等单独进行识别。 - 专业名词和研究领域名称，这个在通用分词领域出现的情况比较少，如果出现特殊的新领域，专业，就会随之产生一批新的词汇。 - 其他专用名词，包含其他新产生的产品名、电影、书籍等等。经过统计汉语分词出现问题更多是由于未登录词造成的，那么分词模型对于未登录词的处理将是衡量一个系统好坏的重要指标。 # 二、常用中文分词方法从汉语自动分词的概念被提出来以后，人们提出了许多分词方法，早期的分词方法主要基于词典，属于字符串匹配算法，比较著名的有在上世纪 80 年代提出的正向最大匹配法（FMM),对文本呢从左至右切出最长的词；逆向最大匹配法（BMM),对文本从右到左切出最长的词；N-最短路径方法；双向匹配分词法，由左到右，由右到左作两次扫描。后来，随着统计方法的迅速发展，人们又提出来基于统计模型(HMM 和 n 元语法）的分词方法，以及规则方法和统计方法相结合的分词技术。 ### 基于词典基于词典的方法是经典的传统分词方法，这种方式很直观，即从大规模的训练语料中提取分词词库，并同时将词语的词频统计出来，再可以通过逆向最大匹配、N-最短路径等分词方法对句子进行切分。基于词典的分词方法非常直观，可以很容易的通过增减词典来调整最终的分词效果，比如当发现某个新出现的名词无法被正确切分的时候，可以直接在词典当中进行添加，以达到正确切分的目的；同样的，过于依赖于词典也导致这种方法对于未登录词的处理不是很好，并且当词典当中的词出现公共子串的时候，就会出现歧义切分的问题，这就需要语料库足够的丰富，从而能够对每个词的频率有一个很好的设置。 ### 基于模型的机器学习统计方法这类方法主要围绕特定的模型，背后有相应的数学理论作支撑。比较著名的有隐马尔科夫模型（HMM )、条件随机场模型（CRF ）、最大熵模型（ME )、N 元文法模型（ N-gram)、支持向量机（SVM )等。其中还有基于深度学习的分词器，这里不一一介绍了。这类方法优缺点鲜明，缺点是训练集需要大量人工标注语料、还要整理统计特征；优点则是不仅考虑词频，还考虑上下文，可有效消除歧义、识别未登录词。 ### 其他分词处理的方法还有： - 词向量转换/特征降维 - $TF-IDF$ TF 表示某个词语在一个语料中出现的频次； DF 表示在全部语料中，共有多少个语料出现了 IDF 是 DF 的倒数(取 log)； TF-IDF 越大，表示这个词越重要。这常用于提取 - $TextRank$ 根据词语之间的邻近关系构建网络，通过 PageRank 迭代计算出词语的排名�

评论收藏

内容反馈

版权申诉