摘要
手机短信作为移动通信中的一项基本业务,伴随着移动互联网的飞速发展,
其使用量日益增长,功能范围日趋广泛,极大地方便了人们的生活。短信的大量
使用致使用户在对其管理上存在一定的繁琐性,如查找利用重要短信数据显得较
为复杂。本文研究的重点是如何利用文本挖掘技术对短信进行分类管理和利用。
本文首先在介绍文本挖掘技术相关概念知识、文本预处理技术以及文本分类
技术的基础上对短信的内容格式和结构进行了详细的研究,提出了一种短信会话
的抽取方法,针对短信中特殊词汇给出了短信文本规范化的处理方式。然后比较
了几种文本特征选择方法,选择了一种适合短信处理的特征选择方法。研究了常
用的几种文本分类算法,详细对 KNN 算法的原理、步骤、优缺点进行了分析,并
针对 KNN 算法对 K 值依赖过大和受训练样本密度影响较大的缺点设计了改进型
KNN 分类算法,即利用样本近邻类别相似度和类别中心向量对 KNN 分类算法进
行改进。
最后,在本文中知识技术研究的基础上,设计和实现了基于 BREW 的手机数
据管理平台中的短信文本挖掘系统,从测试结果中得出,本文设计的系统可以有
效地进行短信分类,通过对实验数据的对比可知,改进型 KNN 算法较原有算法在
分类准确度上有所提升。
关键词: 文本挖掘 文本分类 会话提取 短信分类 KNN
- 1
- 2
前往页