没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
13页
这些文档包含有关各个主题的大量有价值的知识,最近,Internet上的文档可从各种来源获得。 因此,需要以较少的人为干预对这些文档进行自动,快速和准确的分类。 在本文中,我们介绍了一种称为文本文档中最高单词重复率的新算法(HRWiTD),以对自动阿拉伯文本进行分类。 语料库分为训练集和测试集,以应用于建议的分类技术。 分析训练集以进行学习,并将学习数据存储在“学习数据集”文件中。 在学习数据集文件中,将包含每个单词的最高重复次数的类别指定为该单词的类别。 该文件包含具有较高重复次数和类别值的非重复单词,它们来自火车集中的所有文本。 对于测试集中的每个文本,使用学习数据集文件将单词的类别分配给特定类别。 包含最多单词的类别被指定为文本的预测类别。 为了评估HRWiTD算法的分类准确性,使用了混淆矩阵方法。 HRWiTD算法已应用于SPA(沙特新闻社)的六类阿拉伯新闻的聚合样本。 结果,HRWiTD算法的准确性为86.84%。 此外,我们使用了与最流行的机器学习算法C5.0,KNN,SVM,NB和C4.5相同的语料库,它们的分类准确度结果分别为52.86%,52.38%,51.90%,51
资源推荐
资源评论
资源评论
weixin_38530995
- 粉丝: 0
- 资源: 891
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功