文件说明:
1.data 文件内为训练及测试用的邮件数据
2.data 文件夹中的 index 文件保存了每份邮件数据对应的分类,ham 表示正常邮件,spam 表
示恶意邮件
3.测试数据文件夹内保存有 4 份未知类别的邮件,用于后续测试体验
4.概率文件夹内的 ProbDict.txt 为提供的概率文件,保存了运用贝叶斯算法求得的分词属于
垃圾邮件或正常邮件的概率。文件内第一列是分词,第二列是属于垃圾邮件的概率,第三列
是属于正常邮件的概率。每次新训练得到的概率文件在根目录下生成。
AI 垃圾邮件分类器(行命令)说明:
1.项目所需依赖库已导出至 requirements.txt,在新的环境下,进入项目根目录执行以下脚本
完成所有依赖包的安装:pip install -r requirements.txt
2.运行程序后,可进行数据训练,生成新的概率文件 ProbDict.txt;也可利用已有的概率文件
进行邮件分类测试体验。注:若没有概率文件,必须先进行训练
3.也可以选择直接在 Shell 界面输入邮件内容判断是否恶意;或者选择测试数据文件夹内的
邮件文件名,判断是否恶意。