### 实验要求
1. 文本类别数:>=10类。
2. 训练集文档数:>=500000篇;每类平均50000篇。
3. 测试机文档数:>=500000篇;每类平均50000篇。
### 实验内容
利用朴素贝叶斯算法实现对文本的数据挖掘,主要包括:
1. 语料库的构建,主要包括利用爬虫收集Web文档等。
2. 语料库的数据预处理,包括文档建模,如去噪,分词,建立数据字典。
3. 自行实现朴素贝叶斯,训练文本分类器。
4. 对测试集的文本进行分类
5. 对测试集的分类结果利用正确率和召回率进行分析评价。
### 效果展示
1. 部分原始爬取数据
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225056.png)
2. 对爬取数据进行分词、去除停用词
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225156.png)
3. 经过TF_IDF处理
![](https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225248.png)
4. 50w条测试集的测试结果
<img src="https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225901.png" style="zoom: 50%;" />
<img src="https://raw.githubusercontent.com/Yeefine/picBed/master/20201130225937.png" style="zoom: 67%;" />
![avatar](https://profile-avatar.csdnimg.cn/a928a883fa24410dad0c4a036326d5a4_weixin_44510615.jpg!1)
小刘要努力。
- 粉丝: 3w+
- 资源: 255
最新资源
- 陕理工图书馆管理系统系统ssm.zip
- 小学芙童币和芙童印章管理系统ssm.zip
- 学生过程性评价系统ssm.zip
- 郑州经贸学院迎新系统springboot.zip
- 智慧家政在线预约管理系统的设计与实现ssm.zip
- 支教系统springboot.zip
- 智慧农贸信息化管理平台ssm.zip
- 信息技术寒假作业.zip
- 2003-2019年各省对外开放度数据(含原始数据+计算过程+结果)
- 电机控制直流有刷电机电流采样-LM324电流采样
- 局域网IP搜索工具IPScaner V1.1
- deepseek 8b 本地部署 ollama0.5.9
- 四、RAG接入agent 问答文档
- USB驱动程序.rar
- 收银一体秤顶尖等Windows版电子秤设置(内含图解)
- 2025 DeepSeek隐私政策-如何正确使用DeepSeek和保护隐私.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
- 1
- 2
- 3
- 4
前往页