【免费】网络数据挖掘-垃圾短信分类实验报告1_垃圾短信分类任务实验报告资源-CSDN文库

数据挖掘

网络

需积分: 0 82 浏览量 2022-08-04 15:39:32 上传评论 1 收藏 612KB PDF 举报

资源详情

资源评论

网络数据挖掘大作业报告——垃圾短信分类

摘要

短信业务的迅猛发展在丰富了人们的沟通方式的同时，同样遭受到垃圾短信

的困扰。对于运营商来说，垃圾短信造成基础设施资源的巨大浪费；对于移动用

户来说，大量的垃圾短信使用户不能够及时查看正常的短信，干扰了用户的正常

生活。垃圾短信的识别已经成为一个亟待解决的问题，而传统的基于黑白名单、

关键字进行过滤的效果有限，不能起到很好的识别效果。针对该问题，我们基于

垃圾短信的文本内容，将文本分类算法应用到垃圾短信的分类中。我们使用了

SVM、LR、GBDT 和决策树算法进行垃圾短信的识别工作，最后我们制作了线

上演示系统。结果显示系统在垃圾短信的识别上有着良好的表现。

关键词：垃圾短信、文本分类、GBDT、LR

一、概述

垃圾短信日益成为困扰运营商和手机用户的难题，严重影响人们的日常生

活。根据腾讯《2018 年上半年手机安全报告》

[1]

显示，2018 年上半年，用户通

过腾讯手机管家共举报垃圾短信近 8.89 亿条，其中广告类短信占比高达 96.71%。

除了广告类短信，根据短信内容不同，骚扰类、欺诈类、非法广告短信、危害国

家安全、散布谣言、侮辱或诽谤他人的短信都属于垃圾短信的范畴。

对于运营商来说，大量的垃圾短信会耗费过多的资源，造成资源的浪费，并

增加了网络遭到恶意攻击的风险；对于用户来说，大量的垃圾短信使用户无法及

时查看到有用的信息，带来不良的用户体验。因而对垃圾短信进行有效识别是十

分必要的。传统的基于黑白名单、关键词过滤等方法对于垃圾短信的识别效果有

限。从垃圾短信的内容角度进行考虑，垃圾短信的识别问题可以归为文本二分类

问题，目前在文本的二分类问题方面已经有诸多成熟的方法，因而可以将这些方

法应用到垃圾短信的识别工作中。

我们针对垃圾短信的文本内容，对垃圾短信的文本进行特征提取并利用

SVM、LR、GBDT、决策树方法进行分类工作，最后我们制作了线上演示系统

来识别垃圾短信。

本文的组织结构如下：第一部分介绍了垃圾短信的概念与现状及本文的主要

工作；第二部分介绍了文本分类的相关工作；第三部分为数据分析；第四部分为

研究方法，介绍了我们所使用的分类算法；第五部分为实验设计，介绍了实验的

过程及结果；第六部分为总结，包括对实验总结与人员分工情况。

二、相关工作

文本分类最早可以追溯到 20 世纪 60 年代，在这之前主要是采用手工分类的

方法。进入 60 年代后，Maron 发表了具有里程碑作用的论文《Automatic Indexing:

An Experimental Inquiry》

[2]

，采用贝叶斯公式进行文本分类，大大推进了文本分

类工作。在该文中，Maron 还假设特征间是相互独立的，这就是后来被广泛采用

的“贝叶斯假设”。

在随后的二十多年，主要是采用知识工程（Knowledge Engineering, KE）的

方法进行文本分类，它通过在专家知识基础上手工建立一系列分类规则来构建分

类器。知识工程方法需要大量领域的专家和工程师参与，势必耗费很多人力物力，

当电子文档急剧增长时将无法满足需求。这种方法最典型的应用实例为由

Carnegie Group 开发的 CONSTRUE 系统

[3]

，该系统用来对路透社的新闻稿件自

动分类。

直到进入 20 世纪 90 年代，随着 Internet 的迅猛发展，为了能够更好地处理

大量的电子文档，并且伴随着人工智能、机器学习、模式识别、统计理论等学科

的发展，基于知识工程的文本分类方法渐渐退出了历史舞台，文本分类技术进入

了更深入的自动分类时代。由于基于机器学习的自动文本分类系统几乎可以达到

与人类专家相当的正确度，但是却不需要任何知识工程师或领域专家的干预，节

约了大量的人力，并且分类效率远远高于人类专家。

常用的文本分类算法主要包括三大类。一类是基于概率和信息理论的分类算

法,如朴素贝叶斯算法（Naive Bayes）,最大熵算法（Maximum Entropy）等；另

一类是基于 TFIDF 权值计算方法的分类算法，这类算法包括 Rocchio 算法，TFIDF

算法，k 近邻算法（k Nearest Neighbors）等；第三类是基于知识学习的分类算法，

如决策树（Decision Tree），人工神经网络（Artificial Neural Networks），支持向

量机（Support Vector Machine），逻辑回归模型（Logistic Regression）等算法。

三、数据分析

在进行数据分类之前，首先我们对数据进行了分析。此次垃圾短信分类共有

80 万条标注数据，其中垃圾数据 80000 条，其余为非垃圾数据。由此可见数据

中正负样本不均衡的问题非常严重。

考虑到上采样方法会导致过拟合，下采样会浪费过多的实验数据面对这样的

情况，我们的思路是改变错分数据的代价。对不同的数据赋予不同的权重，使得

不同类别的错分代价不同。我们对垃圾短信赋予更高的权重，使其在分类过程中

被错分的代价更大，根据经验，我们将权重比例设置为 9:1。

剩余12页未读，继续阅读

评论收藏

内容反馈

网络数据挖掘-垃圾短信分类实验报告1

评论0

最新资源

网络数据挖掘-垃圾短信分类实验报告1

评论0

最新资源

相关推荐

数据挖掘-WEKA实验报告一.pdf

数据挖掘实验报告-数据预处理.pdf

数据挖掘实验报告-综合实验2-分类与预测的综合实验.pdf

数据挖掘--课程报告(关联规则、聚类等).docx

国科大/中科院-网络数据挖掘-徐君-大作业-垃圾短信识别系统设计-监督学习-分类-报告+数据+代码

数据挖掘实验报告-综合实验2-分类与预测的综合实验.docx

(完整版)生物数据挖掘-决策树实验报告.docx

生物数据挖掘-决策树实验报告.pdf

国科大_网络数据挖掘大作业_2017_垃圾短信分类

数据挖掘之神经网络分析实验报告

数据挖掘之神经网络分析实验报告.pdf

数据挖掘wine数据集分类实验报告及代码

数据挖掘--课程报告(关联规则、聚类等).pdf

生物数据挖掘-决策树实验报告.docx

天池-零基础入门数据挖掘-心跳信号分类预测-EDA分析全过程-代码.rar

数据挖掘之随机森林算法实验报告 (2).docx

数据挖掘机器学习-支持向量机libsvm实验报告.docx

人工智能-数据挖掘-基于数据挖掘技术的电动汽车负荷短期组合预测模型.pdf

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

OpenVAS离线资源