### 实验要求
1. 文本类别数:>=10类。
2. 训练集文档数:>=500000篇;每类平均50000篇。
3. 测试机文档数:>=500000篇;每类平均50000篇。
### 实验内容
利用朴素贝叶斯算法实现对文本的数据挖掘,主要包括:
1. 语料库的构建,主要包括利用爬虫收集Web文档等。
2. 语料库的数据预处理,包括文档建模,如去噪,分词,建立数据字典。
3. 自行实现朴素贝叶斯,训练文本分类器。
4. 对测试集的文本进行分类
5. 对测试集的分类结果利用正确率和召回率进行分析评价。
### 效果展示
1. 部分原始爬取数据
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225056.png)
2. 对爬取数据进行分词、去除停用词
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225156.png)
3. 经过TF_IDF处理
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225248.png)
4. 50w条测试集的测试结果
<img src="https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225901.png" style="zoom: 50%;" />
<img src="https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225937.png" style="zoom: 67%;" />
小刘要努力。
- 粉丝: 3w+
- 资源: 255
最新资源
- 水果系统.rar
- 企业级新闻系统(SSH+MYSQL)130221.rar
- 图片浏览小程序(java+applet)130227.rar
- 通用的在线考试系统(jsp+struts+hibernate+oracle)130220.rar
- 微信文章爬虫项目全套技术资料100%好用.zip
- 单机无穷大系统发生各类(三相短路,单相接地,两相接地,两相相间短路)等短路故障,各类(单相断线,两相断线,三相断线)等断线故障,暂态稳定仿真分析
- 图书管理系统(struts+hibernate+spring).rar
- 图书管理系统(struts+hibernate+spring)130225.rar
- 图书管理系统(struts+hibernate+spring+ext).rar
- 网上订餐系统(struts+spring+hibernate).rar
- 网上订餐系统(struts+spring+hibernate)130221.rar
- 图书管理系统(struts+hibernate+spring+ext)130221.rar
- 网上商城系统(JSP+MYSQL)130220.rar
- 网上商城系统(JSP+MYSQL).rar
- 网上购物系统(JavaBean+Servlet+jsp)130223.rar
- 网上书城系统(Struts+Hibernate+Mysql)130222.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
- 1
- 2
- 3
- 4
前往页