基于改进型特征选择算法的文本分类方法之计算机研究.docx资源-CSDN文库

版权申诉

109 浏览量 2021-10-01 17:51:06 上传评论收藏 77KB DOCX 举报

### 基于改进型特征选择算法的文本分类方法之计算机研究 #### 一、研究背景及意义随着互联网技术的飞速发展，用户不仅能够便捷地获取互联网上的信息资源，还能将信息发布到互联网上，成为信息的双向交流者。根据中国互联网络信息中心(CNNIC)发布的第41次《中国互联网络发展状况统计报告》，截至2021年1月31日，中国网民规模已达7.72亿，普及率为55.8%；其中手机网民规模达到7.53亿，相较于2021年有所提升。互联网用户的快速增长导致了网络资源呈指数级增长，这同时也带来了大量的不良信息，如垃圾邮件、无关搜索结果等。在这种背景下，如何有效地筛选和利用这些海量信息成为了迫切需要解决的问题。 **文本分类**作为一种自动化处理和分类大量非结构化文本的关键技术，在信息检索、推荐系统、新闻分类、垃圾网页检测等领域具有重要的理论价值和现实意义，一直是国内外研究的热点之一。 #### 二、当前研究存在的不足尽管国内外学者已经进行了大量的研究，并提出了许多优秀的特征选择与特征加权算法，但在实际应用中仍然面临以下挑战： 1. **不平衡样本集下的分类精度下降**：大多数现有的特征选择算法在设计时假设训练样本集是平衡的，即每个类别的样本数量相近。然而，在实际应用场景中，收集平衡样本集往往非常困难。此外，现有的算法通常只考虑特征词与特定类别的正相关性，忽略了负相关性的评估，这会导致分类精度下降。 2. **TF-IDF特征加权算法的问题**：TF-IDF是一种常用的特征加权算法，它基于词语出现频率和逆文档频率来评估特征词的重要性。然而，该算法没有考虑到特征词与特定类别的相关性，因此在某些情况下可能无法达到最佳的分类效果。此外，TF-IDF算法也没有考虑到特征词在文档中的位置信息，而实际上，文档开头和结尾的词汇往往比中间部分更能代表文档的主题。 #### 三、文本分类相关研究 ##### 1. 文本分类概述文本分类起源于20世纪50年代末期，最初是基于词频统计的技术。随着时间的发展，逐渐引入了概率模型、向量空间模型等概念，并随着机器学习技术的进步，实现了更加精确高效的分类方法。文本分类的基本流程包括训练和测试两个阶段，其中特征选择和特征加权是两个关键步骤。 ##### 2. 特征选择算法特征选择是指通过算法计算特征词与类别之间的相关性，从而选择出最具有代表性的特征词。常见的特征选择算法包括卡方检测(CHI)等。卡方检测算法基于统计学原理，通过计算理论值与实际值之间的偏差来评估特征词与类别的相关性。卡方值越大，表示特征词与特定类别的相关性越强。 #### 四、基于特征词两面性的DFS-sCHI特征选择算法 ##### 1. DFS-sCHI算法思想针对现有特征选择算法的不足，DFS-sCHI算法考虑了特征词的正负相关性，旨在更准确地评估特征词与类别的相关性。该算法在传统的卡方检测基础上进行了改进，通过引入新的评分机制来综合评估特征词与特定类别的正相关性和负相关性，以提高分类精度。 ##### 2. DFS-sCHI算法步骤 DFS-sCHI算法的具体步骤包括： - 对文本数据进行预处理，提取特征词； - 应用改进后的卡方检测算法计算每个特征词与各类别的正负相关性评分； - 根据评分结果选择最具代表性的特征词； - 将选定的特征词用于构建分类模型。通过上述步骤，DFS-sCHI算法能够在不平衡样本集中更好地评估特征词与类别的相关性，从而提高文本分类的准确性。

资源推荐

资源评论