题目 1 在线社区留言过滤器
1.1 题目的主要研究内容
小组的主要任务:我们小组主要完成朴素贝叶斯分类器训练的相关实践和
编程,主要分为三个部分:在线社区留言过滤器、垃圾邮件过滤、新浪新闻分类。
我和张广龙完成的在线社区留言过滤器为后续我们小组完成的垃圾邮件过
滤、新浪新闻分类的基础,我们在这一部分暂未考虑文本的切分,直接假设已经
将本文切分完毕,存放到列表中,在后续其他小组成员的工作中,他们分别完成
了英文、中文句子的切分。同时,我们在此处编译的朴素分类器代码,也可直接
应用在他们的代码中。
我所做的工作:
(1)讲解朴素贝叶斯相关的优缺点。
(2)在这一编程设计中,广龙主要负责编写程序对数据进行训练以及利用
朴素贝叶斯分类器进行分类的部分。我的主要的工作是解决了代码中的下溢出问
题和引入了拉普拉斯平滑。
1.2 题目研究的工作基础或实验条件
(1)硬件环境
CPU: Intel(R) Core(TM) i5-7200U CPU @ 2.50GHz 2.71 GHz
机带 RAM:8GB
显卡:NVIDIA Geforce MX150
(2)软件环境(开发工具可用“标准 C 语言” 、Visual C++ 、Java 等)
开发语言:Python
1.3 设计思想
此处,我们主要按照五个主要部分来设计。
(1)准备工作:加载数据,我们要考虑出现所有文档中的单词,再决定将
哪些单词纳入词汇表或者说所要的词汇集合,然后必须要将每一篇文档转换为词
汇表上的向量。
(2)再创建一个词汇表,并将切分好的词条转换为词条向量。
(3)训练数据:此处,p0V 存放的是属于非侮辱类的条件概率数组,p1V