### 实验要求
1. 文本类别数:>=10类。
2. 训练集文档数:>=500000篇;每类平均50000篇。
3. 测试机文档数:>=500000篇;每类平均50000篇。
### 实验内容
利用朴素贝叶斯算法实现对文本的数据挖掘,主要包括:
1. 语料库的构建,主要包括利用爬虫收集Web文档等。
2. 语料库的数据预处理,包括文档建模,如去噪,分词,建立数据字典。
3. 自行实现朴素贝叶斯,训练文本分类器。
4. 对测试集的文本进行分类
5. 对测试集的分类结果利用正确率和召回率进行分析评价。
### 效果展示
1. 部分原始爬取数据
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225056.png)
2. 对爬取数据进行分词、去除停用词
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225156.png)
3. 经过TF_IDF处理
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225248.png)
4. 50w条测试集的测试结果
<img src="https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225901.png" style="zoom: 50%;" />
<img src="https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225937.png" style="zoom: 67%;" />
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
人工智能大作业基于TF-IDF+手写朴素贝叶斯实现文本分类python源码+文档说明.zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 人工智能大作业基于TF-IDF+手写朴素贝叶斯实现文本分类python源码+文档说明.zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 人工智能大作业基于TF-IDF+手写朴素贝叶斯实现文本分类python源码+文档说明.zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 人工智能大作业基于TF-IDF+手写朴素贝叶斯实现文本分类python源码+文档说明.zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经
资源推荐
资源详情
资源评论
收起资源包目录
机器学习文本分类基于TF-IDF+朴素贝叶斯.zip (9个子文件)
DM_DW_Exercise主master
data
TF_IDF.zip 185KB
CutDataSet.zip 41.62MB
dataset.zip 50.16MB
totalVocabList.zip 2.16MB
TF_IDF.py 2KB
readme.md 1KB
Naive_Bayesian
Bayes_Model.py 14KB
Confusion_Matrix.py 2KB
stop_words_ch.txt 6KB
共 9 条
- 1
资源评论
盈梓的博客
- 粉丝: 7029
- 资源: 1605
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功