NLP垃圾邮件检测项目
注意:“ Split_60_30_10 ”是数据的 60-30-10% 拆分:60% 用于训练 N-Gram 模型,30% 用于在接下来的 30% 数据上训练主分类器(在经过训练的 N- Gram 模型),10% 用于测试主分类器。 为不同的数据拆分适当地重命名(或创建新)目录。
有关每个数据拆分的特定消息范围,请参阅Data/DATA_NOTES 。
设置
从基本目录(此 README 文件所在的位置)执行以下所有操作。
下载 Trec 2007 数据集并将其解压到项目目录中(链接如下)。
从以下链接下载并构建 Weka 和 Berkley 语言模型 1.1.6。 将构建保留在项目目录中,或者编辑项目脚本中的所有类路径。
如果以下目录不存在,则创建它们:
mkdir -p Data/NGramTrain/Split_60_30_10/lower_char
评论0
最新资源