# 基于 word2vec 实现文本分类
## 实验目的及实验内容
(本次实验所涉及并要求掌握的知识;实验内容;必要的原理分析) 小题分
### 实验目的:
用 Python 进行词向量化,学习并使用文本分类算法。
### 实验内容:
完成基于 word2vec 模型的文本分类任务;
完成基于 Naive Bayesian 的文本分类任务。
要求使用 python 语言编写(或者自选语料库和任务,但要求必须使用 word2vec 和其中一种分类算法完成两次分类任务) 语料库使用群里面提供的素材或者自选。
实验报告中应写出所使用的算法基本原理。
### 原理分析:
基于 word2vec 模型的文本分类任务
进行文本分类之前,首先要让计算机理解文本,因此需要用一些数学符号或者编码方式来表示文本,该过程被称为文本表示。文本表示的方法有很多种,常用几种方式的如下图所示:
![](https://www.writebug.com/myres/static/uploads/2022/9/7/4a99211b7553dedd3c19f367acd9eb0c.writebug)
其中 Word2vec 是文本中的词进行向量化表示,以方便计算机对其进行数学运算。词向量化在自然语言处理当中是很重要的,很多任务的第一步就是需要进行词向量化。Word2vec 有两种训练模式,分别是 CBOW(Continuous Bag-of-Words Model)和 Skip-gram (Continuous
Skip-gram Model)。CBOW 通过上下文来预测当前值,相当于一句话中扣掉一个词,让你猜这个词是什么;Skip-gram 用当前词来预测上下文,相当于给你一个词,让你猜前面和后面可能
![](https://www.writebug.com/myres/static/uploads/2022/9/7/e347467fe5b0bf2f20b2c1c4e6e13cb5.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/ae82dc7527ebed7e0817e32f0e96d32c.writebug)
数学定理中,余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近 1 表明两个向量的夹角越接近 0 度,也就是两个向量越相似,夹角等于 0 即两个向量相等;余弦值越接近 0 表明两个向量的夹角越接近 90 度,也就是两个向量的相关性越小,夹角等于 90 即两个向量正交。
经过 word2vec 后,单词实际上已经变成了一个向量,因此若将该思想推广应用到文本领域,余弦相似度即可衡量两个单词的相近程度。更进一步地,如果将一篇文档的所有词向量累加求平均,即可得到一篇文档的特征向量,进而可计算不同文档间的相似度。在此基础上即可进行文本分类,即:
- 将文档分词,得到语料库;
- 训练得到词向量表示;
- 对训练集中的每一个类别下的所有文档,将其整合成一篇大的文档,提取训整合后文档的特征向量,即所有词向量求和求平均,将得到的结果作为该类的特征向量;
- 对每一篇测试集中的文档,将该文档中的所有词向量求和求平均,作为该文档的特征向量;
将该文档的特征向量与所有类的特征向量分别做余弦相似度计算,取相似度最高的结果对应的类作为该文档的预测分类。
基于 Naive Bayesian 的文本分类任务
朴素贝叶斯的基本思想为,利用先验概率和条件概率估算后验概率,其计算公式如下图所示:
![](https://www.writebug.com/myres/static/uploads/2022/9/7/32f7931a508f708bb6475781f4672f7a.writebug)
对上图的解释为:先验概率是指,事情还没有发生,那么这件事情发生的可能性的大小,即概率空间中的各个类别的总体分布情况;后验概率是指,事情已经发生,那么这件事情发生的原因是由某个因素引起的可能性的大小。
因此用朴素贝叶斯进行文本分类的步骤为:
- 计算先验概率(_);
- 计算独立条件概率(/_);
- 计算总条件概率()= ∑i (_)(/_);
- 计算后验概率(_/);
选取最大的后验概率确定最终的类别。
当然,实际在做时没必要重复造轮子,直接用 nltk 包里的贝叶斯分类器即可。即,真实的步骤为:
1. 划分训练集和测试集数据;
2. 取 nltk 中的贝叶斯分类器;
3. 将训练集数据及对应的标签送入分类器进行训练;
调用评估函数,评估分类的准确性。
## 实验环境
(本次实验所使用的器件、仪器设备等的情况)
处理器:Intel(R) Core(TM) i5-9300H CPU @ 2.40GHz 2.40 GHz
操作系统环境:Windows 10 家庭中文版 x64 19042.867
编程语言:Python 3.8
其他环境:16 GB 运行内存
IDE 及包管理器:JetBrains PyCharm 2020.1 x64, anaconda 3 for Windows(conda 4.9.0)
实验步骤及实验过程分析
(详细记录实验过程中发生的故障和问题,进行故障分析,说明故障排除的过程及方法。根据具体实验,记录、整理相应的数据表格、绘制曲线、波形等)
#### 说明:
由于随机数种子设置等情况,本篇实验报告所记录的内容仅为写报告时(2021/04/23)的情况,可能与实际实验时(2021/04/18)结果有出入。
一切以实际运行时所得到的结果为准。
基于 word2vec 实现文本分类
安装并导入工具包:本实验主要使用到的工具包有 gensim 包,jieba 包,numpy 包和 r e 包等。
![](https://www.writebug.com/myres/static/uploads/2022/9/7/3aa0d57fea258fda797cae3bf8152ef8.writebug)
获取词表:把所有类别中的文件使用 jieba 进行中文分词(只获取名词类和动词类),整合后生成 word2vec 的词表。这里有两种方法:
采用 jieba.analyse.textrank 方法。该方法可以使用基于 TextRank 算法的关键词提取,所以在切词的时候就会过滤掉一部分频繁出现但实际没多大影响的词,如各种语气词等。该方法会破坏词与词之间的上下文关系,因为该方法切出的词返回的结果是按照频次排序的。
采用 jieba.posseg 方法,该方法会按照精确模式切词并返回其词性,返回结果的顺序为行文中出现的先后顺序,随后只保留指定词性的词项即可。该方法须配合停用词表使用,否则会保留一些无意义的词,如语气词等。
这里采用方法 a。因为在切词后会将切好的词项整合到一个语料文件中,这会在一定程度上削弱词与词之间的上下文关系,所以效果上 a、b 可能差别不大,但是 a 更方便。
![](https://www.writebug.com/myres/static/uploads/2022/9/7/e076f7517bb8f18d0ef296e8bc2e2a95.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/bdaa113438d53e80f876287327d7b135.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/904c270739d003bca78dc036466f4540.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/e45df5669b4356900a6eb1945771e542.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/499f4bc2ca2fce9806da704e2e847c6a.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/d70c0c4c1dc101f9df9bdbc6a8c4fcf5.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/c70433a9fbd880120a74b66fc04162c9.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/706126457f0e00ef35bbc820331afc6a.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/601ac15419d34aba3bceec324ad50e92.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/0a0170087333c919e6c6b4d7b67a862f.writebug)
![](https://www.writebug.com/myres/static/uploads/2022/9/7/c023e607b92b08718cf5c8505149df1f.writebug)
贝叶斯分类器训练:把文本特征和真实类别标签输入到分类器中训练。
![](https://www.writebug.com/myres/static/uploads/2022/9/7/1aef48a82b79ecfae3f396fb61714cf3.writebug)
准确率计算:把
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
实验内容: 完成基于 word2vec 模型的文本分类任务; 完成基于 Naive Bayesian 的文本分类任务。 要求使用 python 语言编写(或者自选语料库和任务,但要求必须使用 word2vec 和其中一种分类算法完成两次分类任务) 语料库使用群里面提供的素材或者自选。 实验报告中应写出所使用的算法基本原理。
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083646.png)
![gz](https://img-home.csdnimg.cn/images/20210720083447.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
收起资源包目录
![package](https://csdnimg.cn/release/downloadcmsfe/public/img/package.f3fc750b.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
共 1409 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/fbed2db386fd4018b8f2474d6651545d_s1t16.jpg!1)
神仙别闹
- 粉丝: 2720
- 资源: 7379
![benefits](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-1.c8e153b4.png)
下载权益
![privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-2.ec46750a.png)
C知道特权
![article](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-3.fc5e5fb6.png)
VIP文章
![course-privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-4.320a6894.png)
课程特权
![rights](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-icon.fe0226a8.png)
开通VIP
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 打包和分发Rust工具.pdf
- SQL中的CREATE LOGFILE GROUP 语句.pdf
- C语言-leetcode题解之第172题阶乘后的零.zip
- C语言-leetcode题解之第171题Excel列表序号.zip
- C语言-leetcode题解之第169题多数元素.zip
- ocr-图像识别资源ocr-图像识别资源
- 图像识别:基于Resnet50 + VGG16模型融合的人体细胞癌症分类模型实现-图像识别资源
- C语言-leetcode题解之第168题Excel列表名称.zip
- C语言-leetcode题解之第167题两数之和II-输入有序数组.zip
- C语言-leetcode题解之第166题分数到小数.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)