文本分类实验报告_文本切分及特征词选择实验报告资源-CSDN文库

数据挖掘

文本分类

需积分: 50 56 浏览量 2016-12-02 18:10:37 上传评论 3 收藏 6.23MB DOC 举报

资源详情

资源评论



实验一：文本的分类

1. 实验目的

观察网页结构，利用爬虫算法爬取某网站的几类新闻网页内容，通过对其进行预

处理、分词以及特征选择等，建立特征词典，构建每个文章的特征向量。之后利用分

类算法，如朴素贝叶斯、 等，针对训练集的特征向量以及类标签进行训练，得到

分类模型，并通过计算在测试集上的预测准确率、召回率等对不同分类器的分类效果

以及不同参数影响进行性能评估，且通过  曲线直观对比分类效果。

2. 实验进度

本实验由一人完成，所以在此列出实验进度完成时间表。

时间内容



学习  基本语法



了解爬虫算法，掌握操作  的  和网页解析器 ，观察

新浪几类新闻资讯网页结构的  标签，编写代码，抓取  类共  万多

篇文本的新闻内容，保存到本地。



了解常用的几种分词方法，选用 ! 分词和词性提取包作为本实验的分词

工具，并去除停用词、无关词"自己加入的#等仅仅保留 $ 为名词的词

语，保存到文本中。

%

统计每篇文章中的出现词语的词频信息、每个类别中出现词语的词频信

息、每个类别中出现的词各自在多少篇文章中出现的信息，以便之后进行

卡方检验以及 & 计算。

'

掌握卡方检验的原理并完成代码实现，得到每个类别中的 () 值较大的前

*的词语作为此类的关键词，保存到文本中。

+,

搜索了解学习  中进行科学计算和文本分类的库，如

、-.、-/ 等，并通过学习 & 代码掌握使用的基本方法。

,

针对以上过程保留的所有文章中的所有关键词，作为当前特征词典，利用

-/ 的 01. 包计算所有词语 & 值并归一化作为特征向

量。并利用 -/ 的 01. 包中 . 再次筛选特征词进行降

维。



自行编写实现朴素贝叶斯算法代码，并了解掌握 -/ 包中分类器的调用

方式。



搜索博客查看前人的分类实现经验，了解性能评估方式，掌握交叉验证、

准确率、召回率等相关概念及代码实现，测试不同分类算法的分类效果。

并得到混淆矩阵。

 %

了解  曲线  实现方法，直观对比不同分类器的分类效果。

'+

撰写实验报告。

3. 实验环境

2,3"  位#

43,"  位#、4. 可视平台



4. 主要设计思想

4.1实验工具介绍

文本分类是对输入文章进行预先设定类别判定的问题，涉及到大量文本要素的处

理。因此选择适当的编程语言有助于文本分类实验的进行。4 是一种应用广泛的

通用编程语言，在文本分类领域中有其显著特点和优势。

、易于快速开发，语言简洁，技巧性小。

、内置常用的数据结构和算法，不仅有利于提高程序易读性，且利于文本结构的

储存，便于文本的转换处理。

、具有丰富的标准库和第三方库以及数据处理包，许多辅助环节如字符编码、网

页信息抓取等可以借鉴已有框架。

%、相关研究的丰富积累， 在自然语言处理方面有很多优秀的相关模块和博

客文章，有利于相关知识的快速了解与掌握。

4.2特征提取与表达方法的设计

本实验，在设计过程中主要考虑以下几点：

① 文本分类属于有监督的学习，需要整理样本，确定样本数目以及记录样本标签。

② 针对爬取的新闻样本需要进行分词操作得到文章的词语表示。

③ 因为分词后每篇文章中包含的词语是很多的，这些词并不都是表征能力强的词，

所以需要根据词性、词长短等过滤掉大部分的无关词。

④ 如何表征文章呢？在本实验中，我采用的特征提取模型是向量空间模型

"#，即将样本转换为向量。为了能实现这种转换，需要进行确定特征词典和得到

特征向量的过程。

⑤ 虽然可以将所有样本的词都提取出来作为词典，但随着样本数目的增多，词典

规模可能达到万级、千万级甚至亿级，这么大的维度可能会带来维度灾难，因此就要

想办法从大量的特征中选择一些有代表性的特征而又不影响分类的效果，这个环节，

我采用了目前领域内认为比较好的卡方检验方法得到每类中的关键词。

⑥ 作为特征向量的表示，这里我采用了 56)76 的方法得到每篇文章的特征表达。

4.3分类算法的选择

在本实验中，我采用了朴素贝叶斯和  两种分类方法进行文本分类，其中，朴

素贝叶斯为自己编写实现， 为调用的 -/-8。

下面，我将从原理及流程方面介绍这两种分类算法。

一、朴素贝叶斯

朴素贝叶斯是在独立性假设的前提下实现的，即在给定目标值时，假设特征之间

是相互独立的。

朴素贝叶斯的公式表示为：

但  也有其缺点，它的运算复杂度太高，特别是在多分类问题上，由于 

是线性分类器，所以要为每个类别分别去生成一个分类模型。

4.4性能评估方法

要评估分类效果的好坏，对于原始数据我们要将其划分为 3& 和 -

&。3& 用于训练，-3& 用于测试正确率"8&3#。但是为了避免偶

然性的影响，不能只做出随机一次划分，得到一个 8&3，就作为衡量这个算

法好坏的标准。必须进行多次随机的划分，分别在其上面计算出各自的 8&

。这样通过某种结合方式有效利用这一组 8&，就可以较好的准确的衡量算

法的好坏。所以，在本实验中用到了交叉验证的方法，可以有效消除一次检验所带来

的波动，得出比较合理的分类正确率。

交叉验证是用来验证分类器的性能一种统计分析方法，基本思想是把在某种意义

下将原始数据"&-#进行分组，一部分作为训练集"3-#，另一部分作为验证集

"8&3-#，首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模

型"&#。

使用交叉验证方法的目的有® 9个：®

① 从有限的学习数据中获取尽可能多的有效信息；®

② 从多个方向开始学习样本，®可以有效的避免陷入局部最小值；®

③ 无论是训练样本还是测试样本都得到了尽可能多的学习，可以在一定程度上避

免过拟合问题。

在本实验中，我采用的是常用的 : 折交叉验证。

一、正确率、精确率和召回率

通常，我们利用正确率"...#来评价分类算法。正确率确实是一个很好很直观

的评价指标，但是有时候正确率高并不能代表一个算法就好。因为在本实验我们的数

据分布不均衡，如表 ' 所示，类别为“考研”的文章很多，有 % 篇，而类别为“中考”

的文章很少，只有 +'% 篇，完全错分类别“中考”依然可以达到很高的正确率却忽视了我

们关注的东西。所以，在本实验中，我采用正确率、精确率和召回率三者一同来评价

分类效果。

关于正确率、精确率和召回率的概念，这里会涉及到几个模型评价术语，现在假

设我们的分类目标只有两类，则会得到四种情况：

#53-8-"54#;真实为正类，预测为正类的样本数；

#6-3-8-"64#;真实为负类，预测为正类；

#6-3$8-"6<#;真实为正类，预测为负类；

%#59$8-"5<#;真实为负类，预测为负类。

由此得到四者的关系如图所示。　　

剩余51页未读，继续阅读

评论收藏

内容反馈

文本分类实验报告

评论0

最新资源

文本分类实验报告

评论0

最新资源

相关推荐

数据挖掘文本分类实验报告.docx

机器学习实验报告-朴素贝叶斯学习和分类文本.docx

数据挖掘文本分类实验报告.pdf

基于单向、双向TextRNN的文本分类实验报告

文本分类实验报告(详尽版本)

神经网络深度学习+MNIST数字识别实验报告

自然语言处理文本分类实验

中国科学院大学深度学习课程实验作业——电影评论情感分类（代码+实验报告）

文本分类综述报告

数据挖掘实验报告

(完整)数据挖掘文本分类实验报告.pdf

数据仓库与及数据挖掘文本分类实验报告.pdf

[机器学习实验报告范文-朴素贝叶斯学习和分类文本].pdf

人工智能大作业基于TF-IDF+手写朴素贝叶斯实现文本分类python源码+实验报告.zip

利用贝叶斯分类器实现手写数字识别（实验报告）

搜索引擎 中文分词 源代码+实验报告.rar

深度学习报告

中国科学院大学深度学习课程实验作业——手写数字识别（代码+实验报告）

MNIST手写字体识别

数据挖掘之神经网络分析实验报告

基于ELMo词向量的textCNN中文文本分类python代码

基于MLP与TextCNN实现的文本分类模型python源码+实验报告+项目说明.zip

Python基于BERT和朴素贝叶斯算法的新闻文本分类源码+数据集+实验报告，基于NaiveBayes的新闻情感分类模型

基于Weka的数据分类分析实验报告.docx

基于Weka的数据分类分析实验报告范文.docx

人工智能-项目实践-文本分类-CNN-RNN中文文本分类，基于TensorFlow

人工智能大作业，文本分类，TF-IDF+手写朴素贝叶斯+源代码+文档说明+pdf+实验报告

搜索引擎中文分词源代码+实验报告.rar